Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/29207
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2019_MuriloCerqueiraMedeiros_tcc.pdf3,33 MBAdobe PDFver/abrir
Título: Metodologias para análise de sentimentos de tweets sobre o mercado financeiro
Autor(es): Medeiros, Murilo Cerqueira
Orientador(es): Borges, Vinícius Ruela Pereira
Assunto: Mineração de texto
Aprendizado de máquina
Data de apresentação: 3-Dez-2019
Data de publicação: 17-Nov-2021
Referência: MEDEIROS, Murilo Cerqueira. Metodologias para análise de sentimentos de tweets sobre o mercado financeiro. 2019. 72 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2019.
Resumo: Este trabalho descreve duas metodologias para análise de sentimentos de tweets relaciona- dos com ações da bolsa de valores. A Metodologia I envolve aprendizagem supervisionada e foca na classificação de sentimentos de tweets escritos em Língua Portuguesa. Essa metodologia faz uso de duas técnicas de redução de dimensionalidade, o Principal Com- ponent Analysis e o t-Stochastic Neighbor Embedding para viabilizar a análise visual para descoberta de conhecimento em tweets. Os tweets são agrupados através do algoritmo K- Means. Além disso, são utilizados os métodos Latent Dirichlet Allocation e Non-Negative Matrix Factorization para extração de tópicos. São empregados os classificadores Naive- Bayes, Support Vector Machine e Random Forest e o desempenho entre eles é comparado e analisado. Os resultados revelaram forte relação entre os tópicos e os grupos a que os tweets pertencem e os classificadores foram capazes de melhor identificarem a ausência do que a presença de um sentimento em um tweet. A Metodologia II envolve aprendizagem não supervisionada para analisar os sentimentos de tweets escritos em Língua Inglesa e utiliza os resultados desta análise para prever por meio de aprendizagem supervisionada a variação diária de ações da empresa americana Apple, Inc. O algoritmo Principal Com- ponent Analysis foi selecionado para a redução de dimensionalidade e os tópicos foram extraídos por meio do uso da técnica Latent Dirichlet Allocation e Non-Negative Matrix Factorization. Os tweets são agrupados por meio do algoritmo K-Means e Expectation Maximization. São utilizados os classificadores Regressão Logística, Naive-Bayes, Sup- port Vector Machine e Random Forest para a previsão da variação das ações da empresa Apple, Inc. Os resultados revelaram a existência de relação entre os grupos a que os tweets pertencem e os tópicos extraídos. Além disso, os resultados mostraram taxas de F1-Score próximas de 0, 9 em alguns experimentos para os classificadores Support Vector Machine e Random Forest.
Abstract: This work focuses on the development of two methodologies for tweet sentiment analy- sis. The Methodology I is based on supervised learning and concerns on identifying the sentiments in tweets in Portuguese language. This methodology employs two techniques for dimensionality reduction: Principal Component Analysis and t-Stochastic Neighbor Embedding for the visual analysis process. Tweets are clustered using the K-Means al- gorithm. Moreover, Latent Dirichlet Allocation and Non-Negative Matrix Factorization algorithms are used to extract the topics in the tweets. The classifiers Naive-Bayes, Sup- port Vector Machine and Random Forest are used to identify the sentiments in the tweets. Experiments were conducted in order to evaluate and validate Methodology I. The results showed a strong relationship between the topics and the clusters. The classifiers were able to better identify when a sentiment was absent in a tweet rather than when a sentiment was present. The Methodology II applies unsupervised learning for sentiment analysis of tweets published in English about the company Apple, Inc. The sentiment analysis results is used among with supervised learning to predict the daily variation of the Ap- ple, Inc. stock price. The Principal Component Analysis is the chosen algorithm for dimensionality reduction and topics are extracted using the Latent Dirichlet Allocation and the Non-Negative matrix Factorization algorithms. The tweets are clustered with the K-Means and the Expectation Maximization algorithm. The classifiers Logistic Re- gression, Naive-Bayes, Support Vector Machine, and Random Forest are used to predict the Apple, Inc stock price variation. The results revealed a relationship between clusters and topics. Also, the results showed F1-Scores close to 0.9 in some experiments for the classifiers Support Vector Machine and Random Forest.
Informações adicionais: Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:Engenharia da Computação



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.