| Título: | Uma abordagem eficiente para classificação de textos baseada em compressão |
| Autor(es): | Souza, Bruno Vargas de |
| Orientador(es): | Freitas, Pedro Garcia |
| Assunto: | Modelo de linguagem grande (LLM) Compreensão Eficiência computacional |
| Data de apresentação: | 8-Dez-2025 |
| Data de publicação: | 30-Dez-2025 |
| Referência: | SOUZA, Bruno Vargas de. Uma abordagem eficiente para classificação de textos baseada em compressão. 2025. 59 f., il. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) — Universidade de Brasília, Brasília, 2025. |
| Resumo: | Nos últimos anos, a comunidade de Aprendizado de Máquina tem desenvolvido modelos
cada vez mais complexos para classificação de textos, especialmente com o avanço dos
Large Language Models (LLMs), que apresentam bom desempenho, mas exigem alta
capacidade computacional e grandes volumes de dados rotulados, o que limita seu uso em
cenários com poucos recursos. Como alternativa, métodos baseados em compressão têm
sido estudados por seu baixo custo computacional, utilizando a Distância de Compressão
Normalizada (do inglês, Normalized Compression Distance) (NCD), que usa a compressão
para medir a similaridade entre textos, em conjunto com classificadores K-vizinhos mais
Próximos (do inglês, K-Nearest Neighbors) (KNN), embora a busca exaustiva por vizinhos
mais próximos represente um gargalo de desempenho. Este trabalho propõe um método
de classificação textual baseado em compressão que utiliza uma Burkhard-Keller Tree
(BKTree) para otimizar essa busca e compara diferentes algoritmos de compressão sem
perda no dataset Fake News Filipino. Os resultados experimentais mostram que o método
mantém desempenho preditivo semelhante ao de abordagens mais complexas, com ganhos
de eficiência expressivos, incluindo acelerações de 20×, 25×, 7×, 6,6×, 8×, 10×, 1,4×,
1,9×, 11× e 12× para os compressores Brotli, FSST, LZ4, LZAV, LZF, QuickLZ, Shoco,
Smaz, Snappy e ZLib, respectivamente, configurando uma alternativa eficiente e escalável
para cenários com recursos limitados. |
| Abstract: | In recent years, the Machine Learning community has developed increasingly complex
models for text classification, especially with the advancement of Large Language Models
(LLMs), which demonstrate good performance but require high computational capacity
and large volumes of labeled data, limiting their use in low-resource scenarios. As an alternative, compression-based methods have been studied for their low computational cost,
utilizing the Normalized Compression Distance (NCD), which uses compression to measure similarity between texts, in conjunction with K-Nearest Neighbors (KNN) classifiers,
although the exhaustive search for nearest neighbors represents a performance bottleneck. This work proposes a compression-based text classification method that utilizes a
Burkhard-Keller Tree (BK-Tree) to optimize this search and compares different lossless
compression algorithms on the Fake News Filipino dataset. Experimental results show
that the method maintains predictive performance similar to complex approaches, with
significant efficiency gains, including speedups of 20×, 25×, 7×, 6.6×, 8×, 10×, 1.4×,
1.9×, 11×, and 12× for Brotli, FSST, LZ4, LZAV, LZF, QuickLZ, Shoco, Smaz, Snappy,
and ZLib compressors, respectively, configuring an efficient and scalable alternative for
low-resource scenarios. |
| Informações adicionais: | Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2025. |
| Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
| Aparece na Coleção: | Ciência da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.