Utilize este link para identificar ou citar este item:
https://bdm.unb.br/handle/10483/25134
Título: | Uma proposta para a determinação do número de clusters |
Autor(es): | Quadros, Allan Vieira de Castro |
Orientador(es): | Cançado, André Luiz Fernandes |
Assunto: | Cluster Árvores geradoras mínimas (MST) Otimização de Pareto |
Data de apresentação: | 6-Jul-2018 |
Data de publicação: | 29-Jul-2020 |
Referência: | QUADROS, Allan Vieira de Castro. Uma proposta para a determinação do número de clusters. 2018. x, 52 f., il. Trabalho de Conclusão de Curso (Bacharelado em Estatística)—Universidade de Brasília, Brasília, 2018. |
Resumo: | Determinar o número k de grupos nos dados é um problema recorrente na
análise de clusters. Neste trabalho, propomos um método para a estimação de k utilizando
uma função multiobjetivo. Um algoritmo de agrupamento baseado em árvores geradoras
mínimas (MST) é executado nos dados reais e em hipercubos simulados a partir de distribui-
ções Uniformes utilizando uma adptação do conceito de cubic clustering criterion (CCC). As
estatísticas de teste obtidas para k = 2; 3; :::n clusters são então comparadas e determina-se
o valor mais adequado de k. Espera-se que soluções espúrias de agrupamento nos dados
apresentem valores de estatísticas de teste próximos aos das simulações. Os testes iniciais do
algoritmo indicam um bom funcionamento para dados com clusters elipsóides e alongados.
A presença de outliers e de grupos anelares, por outro lado, di cultam seu funcionamento. |
Abstract: | Finding the number k of groups in data is a common problem in cluster
analysis. In this study we propose a method to estimate k using a multiobjective function.
We run a Minimum Spanning Tree (MST) based clustering algorithm on real data and on
hypercubes which are simulated from Uniform distributions using an adaptation of the cubic
clustering criterion (CCC) concept. The test statistics obtained for k = 2; 3; :::n clusters are
then compared and the most appropriate value of k is determined. Spurious solutions in
grouping real data are expected to present test statistics values close to those of simulations.
Initial tests indicate a great performance on data with ellipsoid and elongated clusters. On
the other hand, the algorithm fails in the presence of outliers and ring shaped groups. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Estatística, 2018. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Estatística
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.