Título: | Classificação de publicações em diários oficiais utilizando aprendizagem de máquina e processamento de linguagem natural |
Autor(es): | Estevão, Igor Furtado Guimarães |
Orientador(es): | Vidal, Flávio de Barros |
Assunto: | Aprendizado de máquina Processamento de linguagem natural (Computação) |
Data de apresentação: | 9-Mai-2022 |
Data de publicação: | 4-Abr-2023 |
Referência: | ESTEVÃO, Igor Furtado Guimarães. Classificação de publicações em diários oficiais utilizando aprendizagem de máquina e processamento de linguagem natural. 2022. 63 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia Mecatrônica) — Universidade de Brasília, Brasília, 2022. |
Resumo: | De forma a impulsionar o avanço de tecnologias que lidam com a grande quantidade de
informação gerada pelo mundo moderno e auxiliar no combate à corrupção, o presente
trabalho buscou desenvolver uma metodologia de classificação de publicações relacionadas
ao processo licitatório de obras públicas, disponíveis no Diário Oficial da União, quanto
ao tipo de publicação, sendo esse um problema de classificação multiclasse de texto. Para
isso, foi reunido um conjunto de dados com 4.181.390 publicações, o qual somado ao uso de
técnicas de aprendizagem de máquina e processamento de linguagem natural, possibilitaram
a simulação de processos de classificação reais considerando diferentes cenários. Foram
testados 14 modelos lineares clássicos diferentes na resolução do problema, os quais tiveram
seus desempenhos medidos e comparados por meio do cálculo de métricas estatísticas
derivadas da matriz de confusão multiclasse. Os resultados obtidos foram capazes de manter
o nível de qualidade do que seria o trabalho de um ser humano capacitado, tendo o modelo
LinearSVM-L2 atingido um F1-score de 97.88% em um dos cenários, mostrando que as
técnicas utilizadas são muito eficazes na resolução de problemas dessa natureza e abrindo
caminho para a resolução de problemas mais complexos. |
Abstract: | In order to boost the advancement of technologies that deal with the large amount of
information generated by the modern world and assist in the fight against corruption, the
present work sought to develop a methodology for classifying publications related to the
bidding process of constructions, avaiable at Diário Oficial da União, regarding the type
of publication, this being a multiclass text classification problem. To do that, a dataset
with 4.181.390 publications was gathered, which, together with machine learning and
natural language processing techniques, allowed the simulation of open-world classification
processes considering different scenarios. Fourteen different classical linear models were
tested, which had their performances measured and compared by calculating statistical
metrics derived from the multiclass confusion matrix. The results obtained were able to
maintain the quality level of what would be the work of a trained human being, with the
LinearSVM-L2 model reaching an F1-score of 97.88% in one of the scenarios, showing that
the techniques used are very effective in solving problems of this nature and opening the
path to solving more complex problems. |
Informações adicionais: | Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Faculdade de Tecnologia, Curso de Graduação em Engenharia de Controle e Automação, 2022. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia Mecatrônica
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.