Título: | Metodologias para análise de sentimentos de tweets sobre o mercado financeiro |
Autor(es): | Medeiros, Murilo Cerqueira |
Orientador(es): | Borges, Vinícius Ruela Pereira |
Assunto: | Mineração de texto Aprendizado de máquina |
Data de apresentação: | 3-Dez-2019 |
Data de publicação: | 17-Nov-2021 |
Referência: | MEDEIROS, Murilo Cerqueira. Metodologias para análise de sentimentos de tweets sobre o mercado financeiro. 2019. 72 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2019. |
Resumo: | Este trabalho descreve duas metodologias para análise de sentimentos de tweets relaciona-
dos com ações da bolsa de valores. A Metodologia I envolve aprendizagem supervisionada
e foca na classificação de sentimentos de tweets escritos em Língua Portuguesa. Essa
metodologia faz uso de duas técnicas de redução de dimensionalidade, o Principal Com-
ponent Analysis e o t-Stochastic Neighbor Embedding para viabilizar a análise visual para
descoberta de conhecimento em tweets. Os tweets são agrupados através do algoritmo K-
Means. Além disso, são utilizados os métodos Latent Dirichlet Allocation e Non-Negative
Matrix Factorization para extração de tópicos. São empregados os classificadores Naive-
Bayes, Support Vector Machine e Random Forest e o desempenho entre eles é comparado
e analisado. Os resultados revelaram forte relação entre os tópicos e os grupos a que os
tweets pertencem e os classificadores foram capazes de melhor identificarem a ausência do
que a presença de um sentimento em um tweet. A Metodologia II envolve aprendizagem
não supervisionada para analisar os sentimentos de tweets escritos em Língua Inglesa e
utiliza os resultados desta análise para prever por meio de aprendizagem supervisionada
a variação diária de ações da empresa americana Apple, Inc. O algoritmo Principal Com-
ponent Analysis foi selecionado para a redução de dimensionalidade e os tópicos foram
extraídos por meio do uso da técnica Latent Dirichlet Allocation e Non-Negative Matrix
Factorization. Os tweets são agrupados por meio do algoritmo K-Means e Expectation
Maximization. São utilizados os classificadores Regressão Logística, Naive-Bayes, Sup-
port Vector Machine e Random Forest para a previsão da variação das ações da empresa
Apple, Inc. Os resultados revelaram a existência de relação entre os grupos a que os tweets
pertencem e os tópicos extraídos. Além disso, os resultados mostraram taxas de F1-Score
próximas de 0, 9 em alguns experimentos para os classificadores Support Vector Machine
e Random Forest. |
Abstract: | This work focuses on the development of two methodologies for tweet sentiment analy-
sis. The Methodology I is based on supervised learning and concerns on identifying the
sentiments in tweets in Portuguese language. This methodology employs two techniques
for dimensionality reduction: Principal Component Analysis and t-Stochastic Neighbor
Embedding for the visual analysis process. Tweets are clustered using the K-Means al-
gorithm. Moreover, Latent Dirichlet Allocation and Non-Negative Matrix Factorization
algorithms are used to extract the topics in the tweets. The classifiers Naive-Bayes, Sup-
port Vector Machine and Random Forest are used to identify the sentiments in the tweets.
Experiments were conducted in order to evaluate and validate Methodology I. The results
showed a strong relationship between the topics and the clusters. The classifiers were able
to better identify when a sentiment was absent in a tweet rather than when a sentiment
was present. The Methodology II applies unsupervised learning for sentiment analysis
of tweets published in English about the company Apple, Inc. The sentiment analysis
results is used among with supervised learning to predict the daily variation of the Ap-
ple, Inc. stock price. The Principal Component Analysis is the chosen algorithm for
dimensionality reduction and topics are extracted using the Latent Dirichlet Allocation
and the Non-Negative matrix Factorization algorithms. The tweets are clustered with
the K-Means and the Expectation Maximization algorithm. The classifiers Logistic Re-
gression, Naive-Bayes, Support Vector Machine, and Random Forest are used to predict
the Apple, Inc stock price variation. The results revealed a relationship between clusters
and topics. Also, the results showed F1-Scores close to 0.9 in some experiments for the
classifiers Support Vector Machine and Random Forest. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.