Avaliação externa de modelos de tópicos por word embedding na língua portuguesa

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/28650

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2019_AlexSLacerda_tcc.pdf		2,99 MB	Adobe PDF	ver/abrir

Título:	Avaliação externa de modelos de tópicos por word embedding na língua portuguesa
Autor(es):	Lacerda, Alex S.
Orientador(es):	Faleiros, Thiago de Paulo
Assunto:	Algoritmos de computador Processamento de textos (Computação)
Data de apresentação:	Jun-2019
Data de publicação:	22-Set-2021
Referência:	LACERDA, Alex S. Avaliação externa de modelos de tópicos por word embedding na língua portuguesa. 2019. 58 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2019.
Resumo:	A avaliação de modelos não supervisionados é um processo crítico na descoberta de conhecimento. É intríseco ao contexto não supervisionado o não conhecimento de rótulos pré-estabelecidos e, em muitos casos, os padrões são determinados pelo próprio processo algorítmico. Quando se trata de documentos no formato textual, uma técnica bastante utilizada no aprendizado não supervisionado são os Modelos de tópicos. Modelos de Tópicos são um conjunto de algoritmos que tem como função inferir, a partir de uma grande quantidade de documentos textuais, os temas neles contidos. Este arcabouço de técnicas é bastante utilizado para a sumarização, exploração e classificação de documentos. Em geral, o produto destes modelos é um conjunto de tópicos (temas) e sua distribuição sobre os documentos processados. Cada tópico é constituído por um conjunto de palavras com diferentes probabilidades de ocorrência. Devido à característica não-supervisionada destes algoritmos, nem sempre os tópicos gerados são formados por palavras semânticamente relacionadas, ou seja: tópicos aprendidos podem não fazer sentido para um leitor humano. Estes tópicos têm pouca utilidade na análise de documentos por não possuírem a interpretabilidade necessária para representar um assunto real. Para identificar estes tópicos pouco úteis, a avaliação manual por especialistas humanos pode ser utilizada, porém, esta é uma atividade onerosa e lenta. Por isso, algumas técnicas de avaliação automática foram propostas. As técnicas automáticas mais bem estabelecidas na liter- atura consistem em buscar por co-ocorrências de pares de palavras dentro de uma grande base de conhecimento, comumente a Wikipedia. Devido ao tamanho da base de busca, existem problemas de lentidão e excessivo gasto computacional. Assim, neste trabalho foi investigada a aplicabilidade de palavras imersas no espaço vetorial para avaliar tópicos de forma mais ágil e eficiente. Os resultados obtidos basearam-se na correlação entre as técnicas que utilizam vetores associados à palavras com as técnicas de avaliação automática baseadas na coocorrência entre pares de palavras.
Abstract:	Evaluating unsupervised models is a critical process on knowledge discovering. Nonex- istent label assignment is intrinsic to unsupervised context. In many cases, patterns are determined by the algorithmic process itself. Regarding to textual documents, a tech- nique largely used for unsupervised learning are Topic Models. Topic Models are a group of algorithms used to estimate from a large number of textual documents their thematic structure. This framework of techniques is widely used for document automatic catego- rization and exploration, with many possible applications. In general, these models result in a set of topics (themes) and their distribution over the training documents. Each topic consists of a set of words with different possibility of occurrence. Due to the unsupervised characteristic of these algorithms, the generated topics are not always formed by seman- tically related words. Some of the topics can make no sense to a human reader, therefore, these poorly interrelated topics are less useful for document analysis as they do not group documents semantically. Human evaluation can be used to identify these weak topics, but this is a very expensive and slow task. To solve this problem, some automatic evaluation techniques were proposed in the literature. The techniques that obtained best results con- sist of searching for co-occurrence of words-pairs inside external data sources, commonly the Wikipedia. Due to the size of the data source, problems of slowness and expensive computational cost are found. Thus, in this work the application of word embedding on topic evaluation was investigated for better performance and efficiency. The obtained results were compared with the prior techniques by means of correlation analysis.
Informações adicionais:	Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:	Engenharia da Computação

Mostrar item em formato completo Recomendar este item Visualizar estatísticas