Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/15647
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2016_CarlosEduardoAraujoDelIsola.pdf313,58 kBAdobe PDFver/abrir
Registro completo
Campo Dublin CoreValorLíngua
dc.contributor.advisorPianto, Donald Matthew-
dc.contributor.authorDel'Isola, Carlos Eduardo Araújo-
dc.identifier.citationDEL'ISOLA, Carlos Eduardo Araújo. Junção de dois bancos de dados com auxílio de uma variável chave utilizando o método Record Linkage. 2016. vii, 34 f., il. Monografia (Bacharelado em Estatística)—Universidade de Brasília, Brasília, 2016.pt_BR
dc.descriptionMonografia (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2016.pt_BR
dc.description.abstractFrequentemente, um pesquisador precisa juntar dois bancos de dados sem acesso a uma chave única, como CPF, mas tendo acesso aos nomes dos indivíduos nos dois bancos. Nomes tem o problema de não serem únicos, fato tratado na literatura usando variáveis auxiliares como sexo, nome da mãe e data de nascimento. Neste trabalho focamos no problema encontrado quando os nomes não são iguais nos dois bancos, o que pode levar à não junção de linhas que representam a mesma pessoa. Para explorar esse problema usamos dados da UnB e dados da Rais, ambos com CPF, para testar a eficácia e acurácia da junção inexata por nome. No software R usamos funções que identificam pares exatos e funções que calculam a distância entre sequências de caracteres. Nossos resultados mostram que, para o grupo de pessoas presentes nos dois bancos com nomes diferentes: 52,21 % são encontrados fazendo um pareamento exato do primeiro e último nome; 16,35 % são encontrados usando a menor distância entre o nome completo; 18,27 % são encontrados usando a menor distância entre o primeiro e último nome; e 13,17 % não são encontrados. Assim, pesquisadores que usam a metodologia de junção proposta podem ter confiança de encontrar grande parte das pessoas procuradas, mesmo quando os nomes diferem entre os dois bancos.pt_BR
dc.rightsAcesso Abertopt_BR
dc.subject.keywordMétodos estatísticospt_BR
dc.subject.keywordBanco de dadospt_BR
dc.titleJunção de dois bancos de dados com auxílio de uma variável chave utilizando o método Record Linkagept_BR
dc.typeTrabalho de Conclusão de Curso - Graduação - Bachareladopt_BR
dc.date.accessioned2017-01-11T13:18:07Z-
dc.date.available2017-01-11T13:18:07Z-
dc.date.submitted2016-
dc.identifier.urihttp://bdm.unb.br/handle/10483/15647-
dc.language.isoPortuguêspt_BR
dc.description.abstract1Often a researcher needs to merge two databases without access to a unique key, such as CPF, but having only access to the names of individuals in the two databases. Names have the problem of not being unique, fact treated in the literature using auxiliary variables such as sex, mother's name and date of birth. In this paper we focus on the problem encountered when the names are not the same in the two databases, which can lead to the fields from one database for a given person not being aligned with the fields for the same person from the other database. To explore this issue we use data from UNB and Rais, both containing CPF, to test the effectiveness and accuracy of inexact junction by name. In the R software use functions that identify exact pairs and functions that calculate the distance between strings. Our results show that, for the group of people present in the two banks with different names: 52.21 % are found making an exact matching of the first and last name; 16.35 % are found using the shortest distance between the full name; 18.27 % are found using the shortest distance between the first and last name; and 13.17 % are not found. Thus, researchers using the proposed joint methodology can have confidence of matching most of the people, even when the names differ between the two databases.pt_BR
Aparece na Coleção:Estatística



Este item está licenciado na Licença Creative Commons Creative Commons