Título: | Estudo comparativo de abordagens semi-supervisionadas para análise de sentimentos em tweets |
Autor(es): | Carmo, Maria Fernanda do Vilaça, Rodrigo Doria |
Orientador(es): | Borges, Vinícius Ruela Pereira |
Assunto: | Aprendizado de máquina Twitter (Rede social on-line) |
Data de apresentação: | 27-Nov-2020 |
Data de publicação: | 21-Mai-2021 |
Referência: | CARMO, Maria Fernanda do; VILAÇA, Rodrigo Doria. Estudo comparativo de abordagens semi-supervisionadas para análise de sentimentos em tweets. 2020. 61 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2020. |
Resumo: | Existem várias abordagens para desenvolver métodos de aprendizado de máquina volta- dos para análise de sentimentos. Há uma carência, no entanto, de estudos e conjuntos de dados usando tweets na língua portuguesa para análise de sentimentos. Adicionalmente, visto a dificuldade de se encontrar conjuntos de dados rotulados para a implementação, abordagens semi-supervisionadas podem ser uma alternativa para contornar este prob- lema, podendo-se usar conjuntos de dados com apenas uma parte dos dados rotulados. Este trabalho faz uma comparação de diferentes métodos de aprendizado de máquina semi-supervisionados em relação à métodos supervisionados, aplicados à análise de sen- timentos para, entre outros fins, detecção e classificação de polaridades de textos, e suas variadas formas de implementação e análise. Para esse propósito, uma metodologia é proposta para a classificação de sentimentos em tweets utilizando dois conjuntos de da- dos, sendo um criado inteiramente de tweets na língua Portuguesa, relacionados à Uni- versidade de Brasília, e também um conjunto de tweets em língua Inglesa. Os tweets foram rotulados em positivo, negativo ou neutro, à fim de que se possa utilizar méto- dos de aprendizado de máquina supervisionados e semi-supervisionados. Basicamente o método consiste nas etapas de pré-processamento dos dados, extração de características e classificação utilizando os modelos Support Vector Machines (SVM), Naive Bayes, La- bel Propagation e k-Nearest Neighbors (KNN). Por fim, a performance dos classificadores é avaliada utilizando a F1-Score, levando às conclusões em relação à eficácia do apren- dizado semi-supervisionado comparado ao supervisionado, afim de entender melhor como a abordagem semi-supervisionada se comporta neste cenário. |
Abstract: | There are several approaches that consider machine learning methods in the sentiment analysis field. However, there is a lack of studies and datasets in Portuguese in this scope. Additionally, due to the complexity to find labeled datasets for the studies, semi- supervised approaches can be an alternative to study this problem, making it possible to employ datasets with only part of labeled data. This work makes a comparison of different semi-supervised machine learning methods in relation to supervised methods, for sentiment analysis tasks. Specifically, the key idea is to detect and classify tweets according to predefined polarities, as well as, analyzing their various forms of implementation and analysis. For this purpose, a methodology is proposed to classify sentiments in tweets using two corpora, in which one was created from Portuguese tweets, collected from profiles related to the University of Brasilia, while the other one is constituted by tweets in English language. The tweets were classified as positive, negative or neutral, by considering supervised and semi-supervised machine learning techniques. Respectively, data pre-processing, feature extraction and classifica- tion were performed using the models Support Vector Machines (SVM), Naive Bayes, Label Propagation and k-Nearest Neighbors (KNN). Finally, the classifier’s performance is analysed using F1-Score, leading to conclusions regarding the effectiveness of semi- supervised learning compared to supervised learning, in order to better understand the behavior of semi-supervised approaches in this scenario. |
Informações adicionais: | Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Ciência da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.