Classificação de títulos de notícias do mercado financeiro brasileiro utilizando modelos de aprendizado de máquina

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/36271

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2023_GuilhermeCoelhoMinervino_tcc.pdf		3,71 MB	Adobe PDF	ver/abrir

Título:	Classificação de títulos de notícias do mercado financeiro brasileiro utilizando modelos de aprendizado de máquina
Autor(es):	Minervino, Guilherme Coelho
Orientador(es):	Oliveira, Roberta Barbosa
Assunto:	Processamento de linguagem natural (Computação) Aprendizado de máquina Mineração de dados
Data de apresentação:	20-Jul-2023
Data de publicação:	4-Out-2023
Referência:	MINERVINO, Guilherme Coelho. Classificação de títulos de notícias do mercado financeiro brasileiro utilizando modelos de aprendizado de máquina. 2023. 79 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) — Universidade de Brasília, Brasília, 2023.
Resumo:	O mercado financeiro é extremamente importante para o desenvolvimento saudável da economia de um país. Com bilhões de reais movimentados diariamente no Brasil e sob influência de diversos fatores externos como política, economia, desastres naturais e doenças, torna-se fundamental ser discutido na literatura como analisar e prever esse mercado. Dado esse domínio, este trabalho busca auxiliar os stakeholders deste mercado ao contribuir para a recuperação de informações de notícias e a predição do preço de ações. Para isso, explora a classificação de notícias do mercado financeiro brasileiro nas classes Petrobras, Vale, Itaú ou Outros; e a predição do movimento do preço da ação da Petrobras (PETR4). Este trabalho aplica conceitos de Natural Language Processing e Machine Learning para lidar com as características não-estruturadas e ruidosas dos dados textuais gerados pelas notícias. Para executar essas duas tarefas, um método é proposto com o objetivo de organizar as etapas de processamento dos dados e das predições. Para a realização dos experimentos deste trabalho, foram considerados modelos de aprendizado tradicional e de deep learning. Os experimentos utilizam os modelos de aprendizado tradicional K-Nearest Neighbors (KNN), Support-Vector Machine (SVM), Naive Bayes (NB) e Logistic Regression (LR), e os modelos de deep learning Long Short-Term Mem- ory (LSTM) e Bi-directional Long Short-Term Memory (Bi-LSTM). A base de dados deste trabalho foi obtida de um repositório público contendo notícias de diferentes por- tais brasileiros. Os resultados experimentais das tarefas foram avaliados utilizando as métricas acurácia e F1-Score. Além disso, foi aplicada a técnica holdout com splits de treino, validação e teste para o treinamento e avaliação dos modelos preditivos. A clas- sificação de notícias obteve resultados promissores, com o melhor modelo sendo o LSTM com a representação word2vec, com acurácia e F1-Score de 83.07% e 81.19%, respecti- vamente. Para a tarefa de predição do movimento da ação Petrobras, os resultados não foram satisfatórios, com melhor modelo sendo SVM com a representação Term Frequency - Inverse Document Frequency, atingindo a acurácia de 50.68% e F1-Score de 34.01%.
Abstract:	The financial market is essential for the healthy development of a country’s economy. With billions of reais being moved daily in Brazil and under the influence of several exter- nal factors such as politics, economics, natural disasters, and diseases, it becomes crucial to be discussed in the literature. Given this domain, this work helps stock market stake- holders with information recovery of news and stock market share prediction. Therefore, the classification of financial market news in the classes Petrobras, Vale, Itaú or Others, and the stock price forecasting of Petrobras (PETR4) are explored. Hence, Natural Lan- guage Processing and Machine learning are used to deal with the unstructured and noisy characteristics of the textual data generated by the news. Here, a method is proposed to perform these tasks, with the goal of organizing data processing and predictions of this study. Considering the experiments of this study, traditional machine learning and deep learning are applied. K-Nearest Neighbors (KNN), Support-Vector Machine (SVM), Naive Bayes (NB), and Logistic Regression (LR) compose the traditional machine learn- ing models and Long Short-Term Memory (LSTM) and Bi-directional Long Short-Term Memory (Bi-LSTM) represent the deep learning models. The database was obtained from a public repository containing news from different Brazilian portals. The experiment re- sults of the tasks executed by this work were evaluated by accuracy and F1-Score metrics. Besides that, the holdout technique was applied, with train, validation, and test splits to train and evaluate the predictive models. The task of news classification showed promising results, with the best model being LSTM combined with word2vec, scoring 83.07% and 81.19% for accuracy and F1-Score metrics, respectively. The task of PETR4 stock price forecasting did not show interesting results, since the best model using SVM with Term Frequency - Inverse Document Frequency achieved an accuracy of 50.68% and F1-Score of 34.01%.
Informações adicionais:	Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:	Engenharia da Computação

Mostrar item em formato completo Recomendar este item Visualizar estatísticas