A method for defining customer spending behavior based on unsupervised machine learning

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/37049

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2023_GabrielPortoOliveira_tcc.pdf		2,13 MB	Adobe PDF	ver/abrir

Título:	A method for defining customer spending behavior based on unsupervised machine learning
Autor(es):	Oliveira, Gabriel Porto
Orientador(es):	Oliveira, Roberta Barbosa
Assunto:	Aprendizagem de máquina
Data de apresentação:	6-Fev-2023
Data de publicação:	12-Dez-2023
Referência:	OLIVEIRA, Gabriel Porto. A method for defining customer spending behavior based on unsupervised machine learning. 2023. 65 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) — Universidade de Brasília, Brasília, 2023.
Resumo:	À medida em que mais dados financeiros são gerados a cada ano, se faz necessário o uso desses para desenvolver produtos financeiros personalizados conforme a experiência do usuário. Neste trabalho é proposto um método para definir possíveis padrões de gastos a partir de transações financeiras categorizadas. São comparados diferentes algoritmos de clusterização e de detecção de outliers com métricas usuais para validação interna de grupos, em conjunto com análises empíricas do nível de balanceamento dos clusters. Os algoritmos de clusterização comparados são k-Means, Bisecting k-Means e Mean-Shift; ademais, os algoritmos de detecção de outliers usados neste trabalho são Local Outlier Factor e Isolation Forest. Por fim, as métricas de desempenho usadas, a saber, Silhoutte Index, Calinski-Harabasz Score e Davies-Bouldin Index. Juntamente com o método, uma variação do algoritmo de clusterização k-Means, o Ok-Means, é proposto com o objetivo de reduzir as anomalias nos clusters através da detecção de outliers durante o processo de treinamento. Os algoritmos de clusterização e detecção de outliers geralmente mostraram melhores resultados quando usados em conjunto. O algoritmo proposto Ok-Means de monstrou melhores resultados, baseados nas métricas de desempenho, quando comparado com o k-Means e com a combinação de k-Means + Isolation Forest, na maioria dos testes; exibindo um índice no Sillhouette Index de 0,7920, no Calinski-Harabasz Score apresenta 37,1286 e no Davies-Bouldin Index um valor de 0,1404. Ainda assim, o Ok-Means não resolve o problema do desbalanceamento dos clusters. Uma visualização dos padrões de gastos é criada usando um método proposto e validado por um especialista na área para auxiliar na extração de informações baseadas no comportamento do usuário.
Abstract:	With more financial information being generated each year, a necessity is created to use such information to develop financial products tailored to the experience of users. Here, a method to define possible spending patterns using categorized financial transactions is proposed. This study compares different clustering and outlier detecting algorithms with common metrics for internal validation of clusters, along with an empirical analysis of cluster balancing. The clustering algorithms compared are k-Means, Bisecting k-Means and Mean-Shift; besides, the outlier detecting algorithms used in this study are Local Out lier Factor and Isolation Forest. Lastly, the performance metrics used, namely, Silhouette Index, Calinski-Harabasz Index and Davies-Bouldin Index. Along with the method, a variant of the k-Means clustering algorithm, the Ok-Means, is proposed, pursuing the decrease of anomalies in clusters by removing outliers during the training process. The clustering and outlier removal algorithms usually were found to have better results when in use together. The proposed Ok-Means algorithm has found to give better results, based on internal validation metrics, when compared to the k-Means and k-Means + Isolation Forest combination in most of the tests; exhibiting a Silhouette Index score of 0.7920, Calinski-Harabasz Index of 37.1286 and Davies-Bouldin Index of 0.1404. Still, the Ok-Means does not solve the issue of unbalanced clusters. A visualization of spending patterns is created using the proposed method and validated by an expert in the area to help extract more information based on user behavior.
Informações adicionais:	Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:	Engenharia da Computação

Mostrar item em formato completo Recomendar este item Visualizar estatísticas