Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/15647
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2016_CarlosEduardoAraujoDelIsola.pdf313,58 kBAdobe PDFver/abrir
Título: Junção de dois bancos de dados com auxílio de uma variável chave utilizando o método Record Linkage
Autor(es): Del'Isola, Carlos Eduardo Araújo
Orientador(es): Pianto, Donald Matthew
Assunto: Métodos estatísticos
Banco de dados
Data de apresentação: 2016
Data de publicação: 11-Jan-2017
Referência: DEL'ISOLA, Carlos Eduardo Araújo. Junção de dois bancos de dados com auxílio de uma variável chave utilizando o método Record Linkage. 2016. vii, 34 f., il. Monografia (Bacharelado em Estatística)—Universidade de Brasília, Brasília, 2016.
Resumo: Frequentemente, um pesquisador precisa juntar dois bancos de dados sem acesso a uma chave única, como CPF, mas tendo acesso aos nomes dos indivíduos nos dois bancos. Nomes tem o problema de não serem únicos, fato tratado na literatura usando variáveis auxiliares como sexo, nome da mãe e data de nascimento. Neste trabalho focamos no problema encontrado quando os nomes não são iguais nos dois bancos, o que pode levar à não junção de linhas que representam a mesma pessoa. Para explorar esse problema usamos dados da UnB e dados da Rais, ambos com CPF, para testar a eficácia e acurácia da junção inexata por nome. No software R usamos funções que identificam pares exatos e funções que calculam a distância entre sequências de caracteres. Nossos resultados mostram que, para o grupo de pessoas presentes nos dois bancos com nomes diferentes: 52,21 % são encontrados fazendo um pareamento exato do primeiro e último nome; 16,35 % são encontrados usando a menor distância entre o nome completo; 18,27 % são encontrados usando a menor distância entre o primeiro e último nome; e 13,17 % não são encontrados. Assim, pesquisadores que usam a metodologia de junção proposta podem ter confiança de encontrar grande parte das pessoas procuradas, mesmo quando os nomes diferem entre os dois bancos.
Abstract: Often a researcher needs to merge two databases without access to a unique key, such as CPF, but having only access to the names of individuals in the two databases. Names have the problem of not being unique, fact treated in the literature using auxiliary variables such as sex, mother's name and date of birth. In this paper we focus on the problem encountered when the names are not the same in the two databases, which can lead to the fields from one database for a given person not being aligned with the fields for the same person from the other database. To explore this issue we use data from UNB and Rais, both containing CPF, to test the effectiveness and accuracy of inexact junction by name. In the R software use functions that identify exact pairs and functions that calculate the distance between strings. Our results show that, for the group of people present in the two banks with different names: 52.21 % are found making an exact matching of the first and last name; 16.35 % are found using the shortest distance between the full name; 18.27 % are found using the shortest distance between the first and last name; and 13.17 % are not found. Thus, researchers using the proposed joint methodology can have confidence of matching most of the people, even when the names differ between the two databases.
Informações adicionais: Monografia (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2016.
Aparece na Coleção:Estatística



Este item está licenciado na Licença Creative Commons Creative Commons