Visualização de vetores de texto por meio de  projeções multidimensionais

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/29353

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2021_LuisFelipeBragaGebrimSilva_tcc.pdf		13,86 MB	Adobe PDF	ver/abrir

Título:	Visualização de vetores de texto por meio de projeções multidimensionais
Autor(es):	Silva, Luís Felipe Braga Gebrim
Assunto:	Mineração de texto Aprendizado de máquina
Data de apresentação:	24-Abr-2021
Data de publicação:	8-Dez-2021
Referência:	Silva, Luís Felipe B. G. Visualização de vetores de texto por meio de projeções multidimensionais. 2021. 73 f. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2021.
Resumo:	A maioria dos trabalhos na literatura relacionados com a visualização de textos baseada no posicionamento de pontos consideram a representação de textos no modelo de espaço vetorial, obtida por técnicas como bag-of-words e Term Frequency-Inverse Document Fre- quency (TF-IDF). Apesar de ser popular, essa representação apresenta limitações ao cap- turar o contexto dos textos, pois não leva em consideração a ordem das palavras presentes no texto. Recentemente, as representações baseadas em text embeddings se mostraram promissoras ao gerar vetores dos textos com preservação do contexto. Dessa maneira, este estudo tem como objetivo investigar se os gráficos de espalhamento gerados por vi- sualizações baseadas em projeções multidimensionais são capazes de refletir informações associadas ao contexto dos textos, como também expressar apropriadamente suas relações de similaridade. Para esse propósito, foram realizados experimentos a partir de diferentes corpos de texto, sobre os quais foram aplicadas as técnicas de text embeddings Vetor de Parágrafos e Bidirectional Encoder Representations from Transformers (BERT). A partir dos vetores obtidos, as técnicas de redução de dimensionalidade t-Stochastic Distributed Neighbor Em- bedding (t-SNE) e Uniform Manifold Approximation Projection (UMAP) foram utilizadas para gerar os gráficos de espalhamento, que tiveram suas qualidades avaliadas com base em métricas que medem a preservação das relações previamente presentes no espaço de alta dimensionalidade. A análise visual dos gráficos de espalhamento obtidos pela técnica t-SNE permite observar que textos similares em relação ao contexto foram posicionados próximos uns aos outros, formando grupos de pontos com baixa separabilidade entre si. Por sua vez, utilizando a técnica UMAP, foi possível verificar uma boa separação de grupos de pontos, associados a textos diferentes. Entretanto, dependendo do conjunto de vetores sobre o qual o UMAP é utilizado, são gerados gráficos de espalhamentos com grupos de pontos esparsos, o que dificulta a identificação de padrões e grupos de textos similares na análise visual.
Abstract:	In literature, several researches related to point placement visualization consider repre- sentations for texts based on the vector space model, such as the bag-of-words and Ferm Frequency-Inverse Document Frequency. Although being useful in text analysis tasks, this approach presents limitations regarding the context preservation on texts, since the words order is lost in these representations. Recent, approaches based on text embeddings have emerged as promising representations by generating embedding vectors that captures the context. This study proposes to investigate if projection-based visualizations are able to reflect context-based information from texts, as well as to express properly its similarity relations. For this purpose, experiments were carried out using different text corpus, in which the text embeddings techniques Paragraph Vector and Bidirectional Encoder Representations from Transformers (BERT) were applied. After the vectors were obtained, the dimen- sionality reduction techniques t-Stochastic Distributed Neighbor Embedding (t-SNE) and Uniform Manifold Approximation Projection (UMAP) were employed as visualizations to generate the scatter plots, and its quality was assessed based on metrics that measure the preservation of the relationships previously present in the high dimensional space. The visual analysis of the scatter plots obtained by the t-SNE technique, shows that similar context texts were positioned close to each other, forming groups of points with low separability from each other. On the other hand, using the UMAP technique it was possible to verify a good separation of groups of points, associated with different texts. However, depending on the set of vectors on which UMAP is used, scatter plots are generated with widespread groups of points, which makes it difficult to identify patterns and groups of similar texts in visual analysis.
Informações adicionais:	Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021.
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:	Ciência da Computação

Mostrar item em formato completo Recomendar este item Visualizar estatísticas