Título: | Visualização de vetores de texto por meio de projeções multidimensionais |
Autor(es): | Silva, Luís Felipe Braga Gebrim |
Assunto: | Mineração de texto Aprendizado de máquina |
Data de apresentação: | 24-Abr-2021 |
Data de publicação: | 8-Dez-2021 |
Referência: | Silva, Luís Felipe B. G. Visualização de vetores de texto por meio de projeções multidimensionais. 2021. 73 f. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2021. |
Resumo: | A maioria dos trabalhos na literatura relacionados com a visualização de textos baseada
no posicionamento de pontos consideram a representação de textos no modelo de espaço
vetorial, obtida por técnicas como bag-of-words e Term Frequency-Inverse Document Fre-
quency (TF-IDF). Apesar de ser popular, essa representação apresenta limitações ao cap-
turar o contexto dos textos, pois não leva em consideração a ordem das palavras presentes
no texto. Recentemente, as representações baseadas em text embeddings se mostraram
promissoras ao gerar vetores dos textos com preservação do contexto. Dessa maneira,
este estudo tem como objetivo investigar se os gráficos de espalhamento gerados por vi-
sualizações baseadas em projeções multidimensionais são capazes de refletir informações
associadas ao contexto dos textos, como também expressar apropriadamente suas relações
de similaridade.
Para esse propósito, foram realizados experimentos a partir de diferentes corpos de
texto, sobre os quais foram aplicadas as técnicas de text embeddings Vetor de Parágrafos
e Bidirectional Encoder Representations from Transformers (BERT). A partir dos vetores
obtidos, as técnicas de redução de dimensionalidade t-Stochastic Distributed Neighbor Em-
bedding (t-SNE) e Uniform Manifold Approximation Projection (UMAP) foram utilizadas
para gerar os gráficos de espalhamento, que tiveram suas qualidades avaliadas com base
em métricas que medem a preservação das relações previamente presentes no espaço de
alta dimensionalidade.
A análise visual dos gráficos de espalhamento obtidos pela técnica t-SNE permite
observar que textos similares em relação ao contexto foram posicionados próximos uns
aos outros, formando grupos de pontos com baixa separabilidade entre si. Por sua vez,
utilizando a técnica UMAP, foi possível verificar uma boa separação de grupos de pontos,
associados a textos diferentes. Entretanto, dependendo do conjunto de vetores sobre o
qual o UMAP é utilizado, são gerados gráficos de espalhamentos com grupos de pontos
esparsos, o que dificulta a identificação de padrões e grupos de textos similares na análise
visual. |
Abstract: | In literature, several researches related to point placement visualization consider repre-
sentations for texts based on the vector space model, such as the bag-of-words and Ferm
Frequency-Inverse Document Frequency. Although being useful in text analysis tasks, this
approach presents limitations regarding the context preservation on texts, since the words
order is lost in these representations. Recent, approaches based on text embeddings have
emerged as promising representations by generating embedding vectors that captures the
context. This study proposes to investigate if projection-based visualizations are able to
reflect context-based information from texts, as well as to express properly its similarity
relations.
For this purpose, experiments were carried out using different text corpus, in which the
text embeddings techniques Paragraph Vector and Bidirectional Encoder Representations
from Transformers (BERT) were applied. After the vectors were obtained, the dimen-
sionality reduction techniques t-Stochastic Distributed Neighbor Embedding (t-SNE) and
Uniform Manifold Approximation Projection (UMAP) were employed as visualizations to
generate the scatter plots, and its quality was assessed based on metrics that measure the
preservation of the relationships previously present in the high dimensional space.
The visual analysis of the scatter plots obtained by the t-SNE technique, shows that
similar context texts were positioned close to each other, forming groups of points with
low separability from each other. On the other hand, using the UMAP technique it was
possible to verify a good separation of groups of points, associated with different texts.
However, depending on the set of vectors on which UMAP is used, scatter plots are
generated with widespread groups of points, which makes it difficult to identify patterns
and groups of similar texts in visual analysis. |
Informações adicionais: | Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Ciência da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.