Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/34434
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2022_AntonioAurelianoDeAnicesioCardoso_tcc.pdfTrabalho de Conclusão de Curso 2,47 MBAdobe PDFver/abrir
Título: Extração de dados com aprendizagem de máquina para processamento de informações em diários oficiais
Autor(es): Cardoso, Antônio Aureliano de Anicésio
Orientador(es): Vidal, Flávio de Barros
Assunto: Aprendizado de máquina
Mineração de texto
Data de apresentação: 20-Set-2022
Data de publicação: 4-Abr-2023
Referência: CARDOSO, Antônio Aureliano de Anicésio. Extração de dados com aprendizagem de máquina para processamento de informações em diários oficiais. 2022. 68 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia Mecatrônica) — Universidade de Brasília, Brasília, 2022.
Resumo: A aplicação de técnicas de aprendizagem de máquina em dados textuais tem crescido expo nencialmente nos últimos anos, principalmente devido à alta disponibilidade de modelos mais complexos e às enormes quantidades de dados disponíveis para esta tarefa. Para que estes dados tenham utilidade, a grande maioria dos algoritmos de aprendizagem de máquina normalmente necessita que os mesmos sejam pré-processados e anotados de alguma forma para serem utilizados no treinamento de modelos supervisionados. Um fator importante na utilização das informações obtidas de dados textuais a partir deste tipo de abordagem é que os mesmos são normalmente indexados em grandes bases de dados para busca. A correta segmentação de porções de textos a partir dos arquivos brutos pode facilitar muito a busca de informações e mesmo processamentos adicionais destes textos. No entanto, a qualidade dos dados públicos varia muito, e uma grande parte dos dados públicos disponíveis são publicados em formatos que não foram feitos para este tipo de processamento. Por exemplo, no caso dos dados publicados em diários oficiais pelos diversos entes da federação no Brasil, a maioria dos municípios e estados disponibiliza os dados em formato PDF, que apresenta diversas dificuldades, enquanto que o Diário Oficial da União (DOU) já possui protocolos de publicação que facilitam o processamento de dados. Neste trabalho realizou-se uma implementação que fosse capaz de realizar a segmentação de publicações de diários oficiais a partir dos arquivos PDF provenientes dos repositórios oficiais em que estas publicações são disponibilizadas ao público em geral. A implementação realizada fez uso de técnicas de aprendizado supervisionado e testou-se diversos modelos esparsos disponíveis nas principais ferramentas de bibliotecas públicas para verificar e comparar o seu desempenho utilizando um benchmark previamente definido.
Abstract: The application of machine learning techniques to textual data has grown exponentially in recent years, mainly due to the high availability of more complex models and the enormous amounts of data available for this task. For these data to be valuable, most machine learning algorithms usually need pre-processed and annotated to be used in supervised training models. An essential factor in the use of information obtained from textual data from this type of approach is that they are usually indexed in large databases for searching. Correctly segmenting text portions from raw files can significantly facilitate the search for information and even further processing of these texts. However, the quality of public data varies widely, and a large part of the shared data is published in formats not designed for this type of processing. For example, in the case of data published in official journals by the various entities of the federation in Brazil, most municipalities and states make the data available in PDF format, which presents several difficulties. In contrast, the Official Gazette of the Union (DOU) already has publication protocols that facilitate data processing. In this work, an implementation was carried out that was able to segment official journal publications from PDF files from the official repositories in which these publications are made available to the general public. The implementation used supervised learning techniques, and several sparse models available in the main tools of public libraries were tested to verify and compare their performance using a previously defined benchmark.
Informações adicionais: Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Faculdade de Tecnologia, 2022.
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:Engenharia Mecatrônica



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.