Título: | Comparação de critérios para determinação do número de clusters |
Autor(es): | Mariano Junior, José Cezário |
Orientador(es): | Cançado, André Luiz Fernandes |
Assunto: | Dados estatísticos Cluster Análise de agrupamento (Estatística) |
Data de apresentação: | 7-Dez-2018 |
Data de publicação: | 1-Jul-2021 |
Referência: | MARIANO JUNIOR, José Cezário. Comparação de critérios para determinação do número de clusters. 2018. 43 f., il. Trabalho de Conclusão de Curso (Bacharelado em Estatística)—Universidade de Brasília, Brasília, 2018. |
Resumo: | Este trabalho apresenta um estudo de critérios de inferência do número correto de grupos
em conjuntos de dados, considerando diferentes métodos de agrupamento aplicados a
diversas configurações de conjuntos de dados. Foram analisados 22 conjuntos de dados com
dimensões e número de grupos variáveis, com grupos gaussianos, elipsoidais e em espiral.
Os agrupamentos foram realizados usando o pacote NbClust (linguagem R), utilizando os
métodos k-médias, Ward, ligação completa e centroide, todos com distância euclidiana,
e usando os critérios CH, Silhueta, DB, Hartigan, Tracew, Trcovw e Gap para inferir o
número correto de grupos. Os critérios CH, Silhueta e DB apresentaram bons resultados
para conjuntos de dados com grupos gaussianos. Os critérios Hartigan, Tracew e Trcovw
apresentaram bons resultados apenas para conjuntos com poucos grupos gaussianos de
baixa dimensão. O critério Gap não apresentou resultados satisfatórios em nenhuma das
análises realizadas. De forma geral, os resultados não foram satisfatórios para conjuntos
de dados com grupos de geometria mais complexa ou de dimensões mais elevadas, o que
pode ser consequência da simplicidade dos métodos de agrupamento usados. |
Abstract: | This study presents an evaluation of different cluster validity indices, considering different
clustering methods applied to data sets with different configurations. The study was
conducted on 22 data sets of different dimensions, number of clusters and type of clusters
(Gaussian, ellipsoidal and spiral clusters). The clustering process was performed using the
NbClust R-package using k-means and hierarchical clustering (Ward, complete linkage and
centroid) and Euclidean distance, comparing the results from CH, Silhouette, DB, Hartigan,
Tracew, Trcovw and Gap validity indices. CH, Silhouette and DB indices were able to
find the correct number of clusters in data sets with Gaussian clusters. Hartigan, Tracew
and Trcovw were able to correctly find the number of clusters only for low-dimension
Gaussian data sets. The Gap index could not find the correct number of clusters in any of
the data sets analysed. In general, results were not satisfactory as dimension and geometry
of the data sets got higher and more complex, which may be due to the simplicity of the
clustering methods applied in the study. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2018. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Estatística
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.