Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/27588
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2020_NicolasMachadoSchumacher_tcc.pdf1,14 MBAdobe PDFver/abrir
Registro completo
Campo Dublin CoreValorLíngua
dc.contributor.advisorFaleiros, Thiago de Paulo-
dc.contributor.authorSchumacher, Nícolas Machado-
dc.identifier.citationSCHUMACHER, Nícolas Machado. Estudo comparativo de modelos de aprendizado de máquina para detecção de email spam. 2020. 78 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2020.pt_BR
dc.descriptionTrabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.pt_BR
dc.description.abstractHaja vista o alto tréfego de email spam e a sua natureza inconveniente ou até mesmo, em alguns casos, nociva, este trabalho objetiva examinar a evolução de modelos supervision- ados de aprendizado de máquina capazes de classificar emails entre legítimo ou spam ao variar a vetorização das características textuais, dividindo os experimentos em etapas de diferentes níveis de complexidade a fim de explorar a capacidade de aprendizado dos mod- elos, avaliando numerica e graficamente o desenvolvimento de cada um deles, buscando-se alcançar os maiores resultados na última etapa. A principal medida utilizada para validar a solução é F1-score, além das análises das curvas de aprendizado. Foram utilizados os algoritmos SVM, Naive Bayes e KNN, sendo que os modelos SVM apresentaram as mel- hores respostas quanto ao avanço da complexidade do treinamento, obtendo os maiores resultados em todos os datasets, já os outros dois algoritmos manifestaram maior sensi- bilidade e incerteza quanto às medidas tomadas em cada etapa. Possíveis incrementos a este trabalho incluem: expansão dos conjuntos de dados utilizados, especialmente para verificar o progresso de modelos SVM de kernel polinomial, implementação de novas fea- tures extraídas a partir dos textos erroneamente classificados e utilização de técnicas de regressão para melhor avaliação das curvas de aprendizado.pt_BR
dc.rightsAcesso Abertopt_BR
dc.subject.keywordAprendizado de máquinapt_BR
dc.subject.keywordMineração de textopt_BR
dc.subject.keywordAprendizado do computadorpt_BR
dc.titleEstudo comparativo de modelos de aprendizado de máquina para detecção de email spampt_BR
dc.typeTrabalho de Conclusão de Curso - Graduação - Bachareladopt_BR
dc.date.accessioned2021-05-21T13:38:42Z-
dc.date.available2021-05-21T13:38:42Z-
dc.date.submitted2020-11-24-
dc.identifier.urihttps://bdm.unb.br/handle/10483/27588-
dc.language.isoPortuguêspt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.pt_BR
dc.description.abstract1Because of the high spam traffic and its undesirable or even, in some cases, harmful nature, this present work aims to inspect the progress of supervised machine learning algorithms capable of labeling emails as spam or legitimate by diversifying the text’s feature vectorization. This is done by the split of the experiments into phases of different complexity levels, in order to explore the learning ability of the algorithms, numerically and graphically evaluating their development, seeking for the best results in the last phase. The main evaluation method used is the F1-score, also the learning curves analysis. The algorithms used were SVM, Naive Bayes and KNN, and the SVM models presented the best responses as the training complexity increased, obtaining the highest results in all datasets, whereas the other two algorithms showed greater sensitivity and uncertainty regarding the actions taken at each stage. Possible enhancements to this research include: data sets expansion, especially to verify polynomial kernel SVM’s progress, development of new features extracted from misclassified emails and the use of regression techniques to better evaluate the learning curves.pt_BR
Aparece na Coleção:Ciência da Computação



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.