Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/27588
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2020_NicolasMachadoSchumacher_tcc.pdf1,14 MBAdobe PDFver/abrir
Título: Estudo comparativo de modelos de aprendizado de máquina para detecção de email spam
Autor(es): Schumacher, Nícolas Machado
Orientador(es): Faleiros, Thiago de Paulo
Assunto: Aprendizado de máquina
Mineração de texto
Aprendizado do computador
Data de apresentação: 24-Nov-2020
Data de publicação: 21-Mai-2021
Referência: SCHUMACHER, Nícolas Machado. Estudo comparativo de modelos de aprendizado de máquina para detecção de email spam. 2020. 78 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2020.
Resumo: Haja vista o alto tréfego de email spam e a sua natureza inconveniente ou até mesmo, em alguns casos, nociva, este trabalho objetiva examinar a evolução de modelos supervision- ados de aprendizado de máquina capazes de classificar emails entre legítimo ou spam ao variar a vetorização das características textuais, dividindo os experimentos em etapas de diferentes níveis de complexidade a fim de explorar a capacidade de aprendizado dos mod- elos, avaliando numerica e graficamente o desenvolvimento de cada um deles, buscando-se alcançar os maiores resultados na última etapa. A principal medida utilizada para validar a solução é F1-score, além das análises das curvas de aprendizado. Foram utilizados os algoritmos SVM, Naive Bayes e KNN, sendo que os modelos SVM apresentaram as mel- hores respostas quanto ao avanço da complexidade do treinamento, obtendo os maiores resultados em todos os datasets, já os outros dois algoritmos manifestaram maior sensi- bilidade e incerteza quanto às medidas tomadas em cada etapa. Possíveis incrementos a este trabalho incluem: expansão dos conjuntos de dados utilizados, especialmente para verificar o progresso de modelos SVM de kernel polinomial, implementação de novas fea- tures extraídas a partir dos textos erroneamente classificados e utilização de técnicas de regressão para melhor avaliação das curvas de aprendizado.
Abstract: Because of the high spam traffic and its undesirable or even, in some cases, harmful nature, this present work aims to inspect the progress of supervised machine learning algorithms capable of labeling emails as spam or legitimate by diversifying the text’s feature vectorization. This is done by the split of the experiments into phases of different complexity levels, in order to explore the learning ability of the algorithms, numerically and graphically evaluating their development, seeking for the best results in the last phase. The main evaluation method used is the F1-score, also the learning curves analysis. The algorithms used were SVM, Naive Bayes and KNN, and the SVM models presented the best responses as the training complexity increased, obtaining the highest results in all datasets, whereas the other two algorithms showed greater sensitivity and uncertainty regarding the actions taken at each stage. Possible enhancements to this research include: data sets expansion, especially to verify polynomial kernel SVM’s progress, development of new features extracted from misclassified emails and the use of regression techniques to better evaluate the learning curves.
Informações adicionais: Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:Ciência da Computação



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.