Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/43116
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2025_BrunoVargasDeSouza_tcc.pdf969,73 kBAdobe PDFver/abrir
Título: Uma abordagem eficiente para classificação de textos baseada em compressão
Autor(es): Souza, Bruno Vargas de
Orientador(es): Freitas, Pedro Garcia
Assunto: Modelo de linguagem grande (LLM)
Compreensão
Eficiência computacional
Data de apresentação: 8-Dez-2025
Data de publicação: 30-Dez-2025
Referência: SOUZA, Bruno Vargas de. Uma abordagem eficiente para classificação de textos baseada em compressão. 2025. 59 f., il. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) — Universidade de Brasília, Brasília, 2025.
Resumo: Nos últimos anos, a comunidade de Aprendizado de Máquina tem desenvolvido modelos cada vez mais complexos para classificação de textos, especialmente com o avanço dos Large Language Models (LLMs), que apresentam bom desempenho, mas exigem alta capacidade computacional e grandes volumes de dados rotulados, o que limita seu uso em cenários com poucos recursos. Como alternativa, métodos baseados em compressão têm sido estudados por seu baixo custo computacional, utilizando a Distância de Compressão Normalizada (do inglês, Normalized Compression Distance) (NCD), que usa a compressão para medir a similaridade entre textos, em conjunto com classificadores K-vizinhos mais Próximos (do inglês, K-Nearest Neighbors) (KNN), embora a busca exaustiva por vizinhos mais próximos represente um gargalo de desempenho. Este trabalho propõe um método de classificação textual baseado em compressão que utiliza uma Burkhard-Keller Tree (BKTree) para otimizar essa busca e compara diferentes algoritmos de compressão sem perda no dataset Fake News Filipino. Os resultados experimentais mostram que o método mantém desempenho preditivo semelhante ao de abordagens mais complexas, com ganhos de eficiência expressivos, incluindo acelerações de 20×, 25×, 7×, 6,6×, 8×, 10×, 1,4×, 1,9×, 11× e 12× para os compressores Brotli, FSST, LZ4, LZAV, LZF, QuickLZ, Shoco, Smaz, Snappy e ZLib, respectivamente, configurando uma alternativa eficiente e escalável para cenários com recursos limitados.
Abstract: In recent years, the Machine Learning community has developed increasingly complex models for text classification, especially with the advancement of Large Language Models (LLMs), which demonstrate good performance but require high computational capacity and large volumes of labeled data, limiting their use in low-resource scenarios. As an alternative, compression-based methods have been studied for their low computational cost, utilizing the Normalized Compression Distance (NCD), which uses compression to measure similarity between texts, in conjunction with K-Nearest Neighbors (KNN) classifiers, although the exhaustive search for nearest neighbors represents a performance bottleneck. This work proposes a compression-based text classification method that utilizes a Burkhard-Keller Tree (BK-Tree) to optimize this search and compares different lossless compression algorithms on the Fake News Filipino dataset. Experimental results show that the method maintains predictive performance similar to complex approaches, with significant efficiency gains, including speedups of 20×, 25×, 7×, 6.6×, 8×, 10×, 1.4×, 1.9×, 11×, and 12× for Brotli, FSST, LZ4, LZAV, LZF, QuickLZ, Shoco, Smaz, Snappy, and ZLib compressors, respectively, configuring an efficient and scalable alternative for low-resource scenarios.
Informações adicionais: Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2025.
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:Ciência da Computação



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.