Título: | Classificação de títulos de notícias do mercado financeiro brasileiro utilizando modelos de aprendizado de máquina |
Autor(es): | Minervino, Guilherme Coelho |
Orientador(es): | Oliveira, Roberta Barbosa |
Assunto: | Processamento de linguagem natural (Computação) Aprendizado de máquina Mineração de dados |
Data de apresentação: | 20-Jul-2023 |
Data de publicação: | 4-Out-2023 |
Referência: | MINERVINO, Guilherme Coelho. Classificação de títulos de notícias do mercado financeiro brasileiro utilizando modelos de aprendizado de máquina. 2023. 79 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) — Universidade de Brasília, Brasília, 2023. |
Resumo: | O mercado financeiro é extremamente importante para o desenvolvimento saudável da
economia de um país. Com bilhões de reais movimentados diariamente no Brasil e
sob influência de diversos fatores externos como política, economia, desastres naturais
e doenças, torna-se fundamental ser discutido na literatura como analisar e prever esse
mercado. Dado esse domínio, este trabalho busca auxiliar os stakeholders deste mercado
ao contribuir para a recuperação de informações de notícias e a predição do preço de
ações. Para isso, explora a classificação de notícias do mercado financeiro brasileiro nas
classes Petrobras, Vale, Itaú ou Outros; e a predição do movimento do preço da ação
da Petrobras (PETR4). Este trabalho aplica conceitos de Natural Language Processing e
Machine Learning para lidar com as características não-estruturadas e ruidosas dos dados
textuais gerados pelas notícias. Para executar essas duas tarefas, um método é proposto
com o objetivo de organizar as etapas de processamento dos dados e das predições. Para a
realização dos experimentos deste trabalho, foram considerados modelos de aprendizado
tradicional e de deep learning. Os experimentos utilizam os modelos de aprendizado
tradicional K-Nearest Neighbors (KNN), Support-Vector Machine (SVM), Naive Bayes
(NB) e Logistic Regression (LR), e os modelos de deep learning Long Short-Term Mem-
ory (LSTM) e Bi-directional Long Short-Term Memory (Bi-LSTM). A base de dados
deste trabalho foi obtida de um repositório público contendo notícias de diferentes por-
tais brasileiros. Os resultados experimentais das tarefas foram avaliados utilizando as
métricas acurácia e F1-Score. Além disso, foi aplicada a técnica holdout com splits de
treino, validação e teste para o treinamento e avaliação dos modelos preditivos. A clas-
sificação de notícias obteve resultados promissores, com o melhor modelo sendo o LSTM
com a representação word2vec, com acurácia e F1-Score de 83.07% e 81.19%, respecti-
vamente. Para a tarefa de predição do movimento da ação Petrobras, os resultados não
foram satisfatórios, com melhor modelo sendo SVM com a representação Term Frequency
- Inverse Document Frequency, atingindo a acurácia de 50.68% e F1-Score de 34.01%. |
Abstract: | The financial market is essential for the healthy development of a country’s economy.
With billions of reais being moved daily in Brazil and under the influence of several exter-
nal factors such as politics, economics, natural disasters, and diseases, it becomes crucial
to be discussed in the literature. Given this domain, this work helps stock market stake-
holders with information recovery of news and stock market share prediction. Therefore,
the classification of financial market news in the classes Petrobras, Vale, Itaú or Others,
and the stock price forecasting of Petrobras (PETR4) are explored. Hence, Natural Lan-
guage Processing and Machine learning are used to deal with the unstructured and noisy
characteristics of the textual data generated by the news. Here, a method is proposed
to perform these tasks, with the goal of organizing data processing and predictions of
this study. Considering the experiments of this study, traditional machine learning and
deep learning are applied. K-Nearest Neighbors (KNN), Support-Vector Machine (SVM),
Naive Bayes (NB), and Logistic Regression (LR) compose the traditional machine learn-
ing models and Long Short-Term Memory (LSTM) and Bi-directional Long Short-Term
Memory (Bi-LSTM) represent the deep learning models. The database was obtained from
a public repository containing news from different Brazilian portals. The experiment re-
sults of the tasks executed by this work were evaluated by accuracy and F1-Score metrics.
Besides that, the holdout technique was applied, with train, validation, and test splits to
train and evaluate the predictive models. The task of news classification showed promising
results, with the best model being LSTM combined with word2vec, scoring 83.07% and
81.19% for accuracy and F1-Score metrics, respectively. The task of PETR4 stock price
forecasting did not show interesting results, since the best model using SVM with Term
Frequency - Inverse Document Frequency achieved an accuracy of 50.68% and F1-Score
of 34.01%. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.