Junção de dois bancos de dados com auxílio de uma variável chave utilizando o método Record Linkage

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/15647

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2016_CarlosEduardoAraujoDelIsola.pdf		313,58 kB	Adobe PDF	ver/abrir

Registro completo

Campo Dublin Core	Valor	Língua
dc.contributor.advisor	Pianto, Donald Matthew	-
dc.contributor.author	Del'Isola, Carlos Eduardo Araújo	-
dc.identifier.citation	DEL'ISOLA, Carlos Eduardo Araújo. Junção de dois bancos de dados com auxílio de uma variável chave utilizando o método Record Linkage. 2016. vii, 34 f., il. Monografia (Bacharelado em Estatística)—Universidade de Brasília, Brasília, 2016.	pt_BR
dc.description	Monografia (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2016.	pt_BR
dc.description.abstract	Frequentemente, um pesquisador precisa juntar dois bancos de dados sem acesso a uma chave única, como CPF, mas tendo acesso aos nomes dos indivíduos nos dois bancos. Nomes tem o problema de não serem únicos, fato tratado na literatura usando variáveis auxiliares como sexo, nome da mãe e data de nascimento. Neste trabalho focamos no problema encontrado quando os nomes não são iguais nos dois bancos, o que pode levar à não junção de linhas que representam a mesma pessoa. Para explorar esse problema usamos dados da UnB e dados da Rais, ambos com CPF, para testar a eficácia e acurácia da junção inexata por nome. No software R usamos funções que identificam pares exatos e funções que calculam a distância entre sequências de caracteres. Nossos resultados mostram que, para o grupo de pessoas presentes nos dois bancos com nomes diferentes: 52,21 % são encontrados fazendo um pareamento exato do primeiro e último nome; 16,35 % são encontrados usando a menor distância entre o nome completo; 18,27 % são encontrados usando a menor distância entre o primeiro e último nome; e 13,17 % não são encontrados. Assim, pesquisadores que usam a metodologia de junção proposta podem ter confiança de encontrar grande parte das pessoas procuradas, mesmo quando os nomes diferem entre os dois bancos.	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject.keyword	Métodos estatísticos	pt_BR
dc.subject.keyword	Banco de dados	pt_BR
dc.title	Junção de dois bancos de dados com auxílio de uma variável chave utilizando o método Record Linkage	pt_BR
dc.type	Trabalho de Conclusão de Curso - Graduação - Bacharelado	pt_BR
dc.date.accessioned	2017-01-11T13:18:07Z	-
dc.date.available	2017-01-11T13:18:07Z	-
dc.date.submitted	2016	-
dc.identifier.uri	http://bdm.unb.br/handle/10483/15647	-
dc.language.iso	Português	pt_BR
dc.description.abstract1	Often a researcher needs to merge two databases without access to a unique key, such as CPF, but having only access to the names of individuals in the two databases. Names have the problem of not being unique, fact treated in the literature using auxiliary variables such as sex, mother's name and date of birth. In this paper we focus on the problem encountered when the names are not the same in the two databases, which can lead to the fields from one database for a given person not being aligned with the fields for the same person from the other database. To explore this issue we use data from UNB and Rais, both containing CPF, to test the effectiveness and accuracy of inexact junction by name. In the R software use functions that identify exact pairs and functions that calculate the distance between strings. Our results show that, for the group of people present in the two banks with different names: 52.21 % are found making an exact matching of the first and last name; 16.35 % are found using the shortest distance between the full name; 18.27 % are found using the shortest distance between the first and last name; and 13.17 % are not found. Thus, researchers using the proposed joint methodology can have confidence of matching most of the people, even when the names differ between the two databases.	pt_BR
Aparece na Coleção:	Estatística

Mostrar item em formato simples Recomendar este item Visualizar estatísticas

Este item está licenciado na Licença Creative Commons