Campo Dublin Core | Valor | Língua |
dc.contributor.advisor | Pianto, Donald Matthew | - |
dc.contributor.author | Del'Isola, Carlos Eduardo Araújo | - |
dc.identifier.citation | DEL'ISOLA, Carlos Eduardo Araújo. Junção de dois bancos de dados com auxílio de uma variável chave utilizando o método Record Linkage. 2016. vii, 34 f., il. Monografia (Bacharelado em Estatística)—Universidade de Brasília, Brasília, 2016. | pt_BR |
dc.description | Monografia (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2016. | pt_BR |
dc.description.abstract | Frequentemente, um pesquisador precisa juntar dois bancos de dados sem acesso a
uma chave única, como CPF, mas tendo acesso aos nomes dos indivíduos nos dois bancos.
Nomes tem o problema de não serem únicos, fato tratado na literatura usando variáveis
auxiliares como sexo, nome da mãe e data de nascimento. Neste trabalho focamos no
problema encontrado quando os nomes não são iguais nos dois bancos, o que pode levar
à não junção de linhas que representam a mesma pessoa. Para explorar esse problema
usamos dados da UnB e dados da Rais, ambos com CPF, para testar a eficácia e acurácia
da junção inexata por nome. No software R usamos funções que identificam pares exatos
e funções que calculam a distância entre sequências de caracteres. Nossos resultados
mostram que, para o grupo de pessoas presentes nos dois bancos com nomes diferentes:
52,21 % são encontrados fazendo um pareamento exato do primeiro e último nome; 16,35 %
são encontrados usando a menor distância entre o nome completo; 18,27 % são encontrados
usando a menor distância entre o primeiro e último nome; e 13,17 % não são encontrados.
Assim, pesquisadores que usam a metodologia de junção proposta podem ter confiança de
encontrar grande parte das pessoas procuradas, mesmo quando os nomes diferem entre os
dois bancos. | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject.keyword | Métodos estatísticos | pt_BR |
dc.subject.keyword | Banco de dados | pt_BR |
dc.title | Junção de dois bancos de dados com auxílio de uma variável chave utilizando o método Record Linkage | pt_BR |
dc.type | Trabalho de Conclusão de Curso - Graduação - Bacharelado | pt_BR |
dc.date.accessioned | 2017-01-11T13:18:07Z | - |
dc.date.available | 2017-01-11T13:18:07Z | - |
dc.date.submitted | 2016 | - |
dc.identifier.uri | http://bdm.unb.br/handle/10483/15647 | - |
dc.language.iso | Português | pt_BR |
dc.description.abstract1 | Often a researcher needs to merge two databases without access to a unique key, such as CPF, but having only access to the names of individuals in the two databases. Names have the problem of not being unique, fact treated in the literature using auxiliary variables such as sex, mother's name and date of birth. In this paper we focus on the problem encountered when the names are not the same in the two databases, which can lead to the fields from one database for a given person not being aligned with the fields for the same person from the other database. To explore this issue we use data from UNB and Rais, both containing CPF, to test the effectiveness and accuracy of inexact junction by name. In the R software use functions that identify exact pairs and functions that calculate the distance between strings. Our results show that, for the group of people present in the two banks with different names: 52.21 % are found making an exact matching of the first and last name; 16.35 % are found using the shortest distance between the full name; 18.27 % are found using the shortest distance between the first and last name; and 13.17 % are not found. Thus, researchers using the proposed joint methodology can have confidence of matching most of the people, even when the names differ between the two databases. | pt_BR |
Aparece na Coleção: | Estatística
|