Título: | Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento |
Autor(es): | Ribeiro, Lucas Braga |
Orientador(es): | Ladeira, Marcelo |
Assunto: | Mineração de dados Linguagem natural Processamento de linguagem natural (Computação) Dispositivos móveis Análise de sentimentos |
Data de apresentação: | 2015 |
Data de publicação: | 31-Ago-2015 |
Referência: | RIBEIRO, Lucas Braga. Análise de sentimento em comentários sobre aplicativos para dispositivos móveis: estudo do impacto do pré-processamento. 2015. xiii, 70 f., il. Monografia (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2015. |
Resumo: | Este trabalho apresenta a análise de sentimento em comentários em português e inglês e mostra os impactos do pré-processamento dos comentários nos resultados. A tarefa de identificar o sentimento expresso em um texto por seu autor é chamada análise de sentimento. Dentre as muitas fases da análise de sentimento destaca-se a etapa de pré-processamento. No decorrer do trabalho é analisado o impacto, na fase de pré- processamento do texto, da remoção de stop-words, remoção de repetições de letras nas palavras e pontuações, da correção de gírias e palavras escritas de maneira errada, da aplicação de uma ferramenta de stemming e ainda da representação do texto em unigramas, bigramas ou uma combinação de ambos. As técnicas são executadas sobre dois corpora com comentários sobre aplicativos móveis extraídos da Google Play, um contendo 2.031.480 comentários em português e outro contendo 4.843.110 comentários em inglês. É analisada, ainda, a curva de aprendizagem dos classificadores Support Vector Machine e Naive Bayes afim de averiguar qual é a quantidade mínima de comentários para que os classificadores atinjam níveis aceitáveis de performance. Observa-se empiricamente que não existe uma sequência de pré-processamento que se destaque das demais de forma conclusiva. Averigua-se, ainda, que a remoção de stop-words não melhora os resultados em nenhum caso estudado, que a a representação dos atributos em Unigrama + Bigrama mostrou-se melhor que as demais quando utilizado SVM, mas não houve evidência conclusiva para este aspecto quando se utiliza Naive Bayes, e que uma quantidade suficiente de comentários no corpus para resultados satisfatórios em português varia entre 182 mil e 510 mil, e em inglês varia entre 242 mil e 871 mil, de acordo com o classificador utilizado. |
Abstract: | This document shows the sentiment analysis of reviews in Porgutuese and English and shows the impacts of preprocessing the texts. The task of identifying the sentiment expressed in a text by its author is called sentiment analysis. Among many steps to perform sentiment analysis we can emphasize the text preprocessing. In this document we analyze the impact, within the text preprocessing step, of the stop words removal, the elimination of repeated characters, the spell checking and correction of misspellings and slang, the stemming technique and the role of text representation in unigrams, bigrams or a combination of both. The techniques are performed over two corpora with reviews of mobile applications extracted from Google Play, one containing 2.031.480 reviews in Portuguese and another containing 4.843.110 reviews in English. Furthermore the learning curves of Support Vector Machines and Naive Bayes classifiers are analyzed in order to verify if it is possible to determine a minimum amount of reviews that is suficient to reach an acceptable performance. We can empirically observe that there is no sequence of text preprocessing that is better than all others in a conclusive way. Moreover, the stop words removal did not improve the results in any of the studied cases, the Unigram + Bigram representation demonstrated to be the best option when we use the SVM but there is no conclusive evidence about this aspect when we use Naive Bayes classifiers. The amount of reviews that is su_cient for the analysis in Portuguese is between 182.000 and 507.000 and in English is between 242.000 and 871.000, accordingly to the classifier used. |
Informações adicionais: | Monografia (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. |
Aparece na Coleção: | Ciência da Computação
|