Título: | A method for defining customer spending behavior based on unsupervised machine learning |
Autor(es): | Oliveira, Gabriel Porto |
Orientador(es): | Oliveira, Roberta Barbosa |
Assunto: | Aprendizagem de máquina |
Data de apresentação: | 6-Fev-2023 |
Data de publicação: | 12-Dez-2023 |
Referência: | OLIVEIRA, Gabriel Porto. A method for defining customer spending behavior based on unsupervised machine learning. 2023. 65 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) — Universidade de Brasília, Brasília, 2023. |
Resumo: | À medida em que mais dados financeiros são gerados a cada ano, se faz necessário o uso
desses para desenvolver produtos financeiros personalizados conforme a experiência do
usuário. Neste trabalho é proposto um método para definir possíveis padrões de gastos
a partir de transações financeiras categorizadas. São comparados diferentes algoritmos
de clusterização e de detecção de outliers com métricas usuais para validação interna de
grupos, em conjunto com análises empíricas do nível de balanceamento dos clusters. Os
algoritmos de clusterização comparados são k-Means, Bisecting k-Means e Mean-Shift;
ademais, os algoritmos de detecção de outliers usados neste trabalho são Local Outlier
Factor e Isolation Forest. Por fim, as métricas de desempenho usadas, a saber, Silhoutte
Index, Calinski-Harabasz Score e Davies-Bouldin Index. Juntamente com o método, uma
variação do algoritmo de clusterização k-Means, o Ok-Means, é proposto com o objetivo
de reduzir as anomalias nos clusters através da detecção de outliers durante o processo de
treinamento. Os algoritmos de clusterização e detecção de outliers geralmente mostraram
melhores resultados quando usados em conjunto. O algoritmo proposto Ok-Means de monstrou melhores resultados, baseados nas métricas de desempenho, quando comparado
com o k-Means e com a combinação de k-Means + Isolation Forest, na maioria dos testes;
exibindo um índice no Sillhouette Index de 0,7920, no Calinski-Harabasz Score apresenta
37,1286 e no Davies-Bouldin Index um valor de 0,1404. Ainda assim, o Ok-Means não
resolve o problema do desbalanceamento dos clusters. Uma visualização dos padrões de
gastos é criada usando um método proposto e validado por um especialista na área para
auxiliar na extração de informações baseadas no comportamento do usuário. |
Abstract: | With more financial information being generated each year, a necessity is created to use
such information to develop financial products tailored to the experience of users. Here,
a method to define possible spending patterns using categorized financial transactions is
proposed. This study compares different clustering and outlier detecting algorithms with
common metrics for internal validation of clusters, along with an empirical analysis of
cluster balancing. The clustering algorithms compared are k-Means, Bisecting k-Means
and Mean-Shift; besides, the outlier detecting algorithms used in this study are Local Out lier Factor and Isolation Forest. Lastly, the performance metrics used, namely, Silhouette
Index, Calinski-Harabasz Index and Davies-Bouldin Index. Along with the method, a
variant of the k-Means clustering algorithm, the Ok-Means, is proposed, pursuing the
decrease of anomalies in clusters by removing outliers during the training process. The
clustering and outlier removal algorithms usually were found to have better results when
in use together. The proposed Ok-Means algorithm has found to give better results,
based on internal validation metrics, when compared to the k-Means and k-Means +
Isolation Forest combination in most of the tests; exhibiting a Silhouette Index score of
0.7920, Calinski-Harabasz Index of 37.1286 and Davies-Bouldin Index of 0.1404. Still, the
Ok-Means does not solve the issue of unbalanced clusters. A visualization of spending
patterns is created using the proposed method and validated by an expert in the area to
help extract more information based on user behavior. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.