Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/27874
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2018_JoseCezarioMarianoJunior_tcc.pdf689,07 kBAdobe PDFver/abrir
Registro completo
Campo Dublin CoreValorLíngua
dc.contributor.advisorCançado, André Luiz Fernandes-
dc.contributor.authorMariano Junior, José Cezário-
dc.identifier.citationMARIANO JUNIOR, José Cezário. Comparação de critérios para determinação do número de clusters. 2018. 43 f., il. Trabalho de Conclusão de Curso (Bacharelado em Estatística)—Universidade de Brasília, Brasília, 2018.pt_BR
dc.descriptionTrabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2018.pt_BR
dc.description.abstractEste trabalho apresenta um estudo de critérios de inferência do número correto de grupos em conjuntos de dados, considerando diferentes métodos de agrupamento aplicados a diversas configurações de conjuntos de dados. Foram analisados 22 conjuntos de dados com dimensões e número de grupos variáveis, com grupos gaussianos, elipsoidais e em espiral. Os agrupamentos foram realizados usando o pacote NbClust (linguagem R), utilizando os métodos k-médias, Ward, ligação completa e centroide, todos com distância euclidiana, e usando os critérios CH, Silhueta, DB, Hartigan, Tracew, Trcovw e Gap para inferir o número correto de grupos. Os critérios CH, Silhueta e DB apresentaram bons resultados para conjuntos de dados com grupos gaussianos. Os critérios Hartigan, Tracew e Trcovw apresentaram bons resultados apenas para conjuntos com poucos grupos gaussianos de baixa dimensão. O critério Gap não apresentou resultados satisfatórios em nenhuma das análises realizadas. De forma geral, os resultados não foram satisfatórios para conjuntos de dados com grupos de geometria mais complexa ou de dimensões mais elevadas, o que pode ser consequência da simplicidade dos métodos de agrupamento usados.pt_BR
dc.rightsAcesso Abertopt_BR
dc.subject.keywordDados estatísticospt_BR
dc.subject.keywordClusterpt_BR
dc.subject.keywordAnálise de agrupamento (Estatística)pt_BR
dc.titleComparação de critérios para determinação do número de clusterspt_BR
dc.typeTrabalho de Conclusão de Curso - Graduação - Bachareladopt_BR
dc.date.accessioned2021-07-01T14:03:48Z-
dc.date.available2021-07-01T14:03:48Z-
dc.date.submitted2018-12-07-
dc.identifier.urihttps://bdm.unb.br/handle/10483/27874-
dc.language.isoPortuguêspt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.pt_BR
dc.description.abstract1This study presents an evaluation of different cluster validity indices, considering different clustering methods applied to data sets with different configurations. The study was conducted on 22 data sets of different dimensions, number of clusters and type of clusters (Gaussian, ellipsoidal and spiral clusters). The clustering process was performed using the NbClust R-package using k-means and hierarchical clustering (Ward, complete linkage and centroid) and Euclidean distance, comparing the results from CH, Silhouette, DB, Hartigan, Tracew, Trcovw and Gap validity indices. CH, Silhouette and DB indices were able to find the correct number of clusters in data sets with Gaussian clusters. Hartigan, Tracew and Trcovw were able to correctly find the number of clusters only for low-dimension Gaussian data sets. The Gap index could not find the correct number of clusters in any of the data sets analysed. In general, results were not satisfactory as dimension and geometry of the data sets got higher and more complex, which may be due to the simplicity of the clustering methods applied in the study.pt_BR
Aparece na Coleção:Estatística



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.