Título: | Avaliação externa de modelos de tópicos por word embedding na língua portuguesa |
Autor(es): | Lacerda, Alex S. |
Orientador(es): | Faleiros, Thiago de Paulo |
Assunto: | Algoritmos de computador Processamento de textos (Computação) |
Data de apresentação: | Jun-2019 |
Data de publicação: | 22-Set-2021 |
Referência: | LACERDA, Alex S. Avaliação externa de modelos de tópicos por word embedding na língua portuguesa. 2019. 58 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2019. |
Resumo: | A avaliação de modelos não supervisionados é um processo crítico na descoberta de conhecimento. É intríseco ao contexto não supervisionado o não conhecimento de rótulos
pré-estabelecidos e, em muitos casos, os padrões são determinados pelo próprio processo
algorítmico. Quando se trata de documentos no formato textual, uma técnica bastante
utilizada no aprendizado não supervisionado são os Modelos de tópicos. Modelos de Tópicos são um conjunto de algoritmos que tem como função inferir, a partir de uma grande
quantidade de documentos textuais, os temas neles contidos. Este arcabouço de técnicas
é bastante utilizado para a sumarização, exploração e classificação de documentos. Em
geral, o produto destes modelos é um conjunto de tópicos (temas) e sua distribuição sobre os documentos processados. Cada tópico é constituído por um conjunto de palavras
com diferentes probabilidades de ocorrência. Devido à característica não-supervisionada
destes algoritmos, nem sempre os tópicos gerados são formados por palavras semânticamente relacionadas, ou seja: tópicos aprendidos podem não fazer sentido para um leitor
humano. Estes tópicos têm pouca utilidade na análise de documentos por não possuírem
a interpretabilidade necessária para representar um assunto real. Para identificar estes
tópicos pouco úteis, a avaliação manual por especialistas humanos pode ser utilizada,
porém, esta é uma atividade onerosa e lenta. Por isso, algumas técnicas de avaliação
automática foram propostas. As técnicas automáticas mais bem estabelecidas na liter-
atura consistem em buscar por co-ocorrências de pares de palavras dentro de uma grande
base de conhecimento, comumente a Wikipedia. Devido ao tamanho da base de busca,
existem problemas de lentidão e excessivo gasto computacional. Assim, neste trabalho foi
investigada a aplicabilidade de palavras imersas no espaço vetorial para avaliar tópicos de
forma mais ágil e eficiente. Os resultados obtidos basearam-se na correlação entre as técnicas que utilizam vetores associados à palavras com as técnicas de avaliação automática baseadas na coocorrência entre pares de palavras. |
Abstract: | Evaluating unsupervised models is a critical process on knowledge discovering. Nonex-
istent label assignment is intrinsic to unsupervised context. In many cases, patterns are
determined by the algorithmic process itself. Regarding to textual documents, a tech-
nique largely used for unsupervised learning are Topic Models. Topic Models are a group
of algorithms used to estimate from a large number of textual documents their thematic
structure. This framework of techniques is widely used for document automatic catego-
rization and exploration, with many possible applications. In general, these models result
in a set of topics (themes) and their distribution over the training documents. Each topic
consists of a set of words with different possibility of occurrence. Due to the unsupervised
characteristic of these algorithms, the generated topics are not always formed by seman-
tically related words. Some of the topics can make no sense to a human reader, therefore,
these poorly interrelated topics are less useful for document analysis as they do not group
documents semantically. Human evaluation can be used to identify these weak topics, but
this is a very expensive and slow task. To solve this problem, some automatic evaluation
techniques were proposed in the literature. The techniques that obtained best results con-
sist of searching for co-occurrence of words-pairs inside external data sources, commonly
the Wikipedia. Due to the size of the data source, problems of slowness and expensive
computational cost are found. Thus, in this work the application of word embedding
on topic evaluation was investigated for better performance and efficiency. The obtained
results were compared with the prior techniques by means of correlation analysis. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.