Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/27874
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2018_JoseCezarioMarianoJunior_tcc.pdf689,07 kBAdobe PDFver/abrir
Título: Comparação de critérios para determinação do número de clusters
Autor(es): Mariano Junior, José Cezário
Orientador(es): Cançado, André Luiz Fernandes
Assunto: Dados estatísticos
Cluster
Análise de agrupamento (Estatística)
Data de apresentação: 7-Dez-2018
Data de publicação: 1-Jul-2021
Referência: MARIANO JUNIOR, José Cezário. Comparação de critérios para determinação do número de clusters. 2018. 43 f., il. Trabalho de Conclusão de Curso (Bacharelado em Estatística)—Universidade de Brasília, Brasília, 2018.
Resumo: Este trabalho apresenta um estudo de critérios de inferência do número correto de grupos em conjuntos de dados, considerando diferentes métodos de agrupamento aplicados a diversas configurações de conjuntos de dados. Foram analisados 22 conjuntos de dados com dimensões e número de grupos variáveis, com grupos gaussianos, elipsoidais e em espiral. Os agrupamentos foram realizados usando o pacote NbClust (linguagem R), utilizando os métodos k-médias, Ward, ligação completa e centroide, todos com distância euclidiana, e usando os critérios CH, Silhueta, DB, Hartigan, Tracew, Trcovw e Gap para inferir o número correto de grupos. Os critérios CH, Silhueta e DB apresentaram bons resultados para conjuntos de dados com grupos gaussianos. Os critérios Hartigan, Tracew e Trcovw apresentaram bons resultados apenas para conjuntos com poucos grupos gaussianos de baixa dimensão. O critério Gap não apresentou resultados satisfatórios em nenhuma das análises realizadas. De forma geral, os resultados não foram satisfatórios para conjuntos de dados com grupos de geometria mais complexa ou de dimensões mais elevadas, o que pode ser consequência da simplicidade dos métodos de agrupamento usados.
Abstract: This study presents an evaluation of different cluster validity indices, considering different clustering methods applied to data sets with different configurations. The study was conducted on 22 data sets of different dimensions, number of clusters and type of clusters (Gaussian, ellipsoidal and spiral clusters). The clustering process was performed using the NbClust R-package using k-means and hierarchical clustering (Ward, complete linkage and centroid) and Euclidean distance, comparing the results from CH, Silhouette, DB, Hartigan, Tracew, Trcovw and Gap validity indices. CH, Silhouette and DB indices were able to find the correct number of clusters in data sets with Gaussian clusters. Hartigan, Tracew and Trcovw were able to correctly find the number of clusters only for low-dimension Gaussian data sets. The Gap index could not find the correct number of clusters in any of the data sets analysed. In general, results were not satisfactory as dimension and geometry of the data sets got higher and more complex, which may be due to the simplicity of the clustering methods applied in the study.
Informações adicionais: Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2018.
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:Estatística



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.