Título: | Extração de dados com aprendizagem de máquina para processamento de informações em diários oficiais |
Autor(es): | Cardoso, Antônio Aureliano de Anicésio |
Orientador(es): | Vidal, Flávio de Barros |
Assunto: | Aprendizado de máquina Mineração de texto |
Data de apresentação: | 20-Set-2022 |
Data de publicação: | 4-Abr-2023 |
Referência: | CARDOSO, Antônio Aureliano de Anicésio. Extração de dados com aprendizagem de máquina para processamento de informações em diários oficiais. 2022. 68 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia Mecatrônica) — Universidade de Brasília, Brasília, 2022. |
Resumo: | A aplicação de técnicas de aprendizagem de máquina em dados textuais tem crescido expo nencialmente nos últimos anos, principalmente devido à alta disponibilidade de modelos
mais complexos e às enormes quantidades de dados disponíveis para esta tarefa. Para que
estes dados tenham utilidade, a grande maioria dos algoritmos de aprendizagem de máquina
normalmente necessita que os mesmos sejam pré-processados e anotados de alguma forma
para serem utilizados no treinamento de modelos supervisionados. Um fator importante na
utilização das informações obtidas de dados textuais a partir deste tipo de abordagem é que
os mesmos são normalmente indexados em grandes bases de dados para busca. A correta
segmentação de porções de textos a partir dos arquivos brutos pode facilitar muito a busca
de informações e mesmo processamentos adicionais destes textos. No entanto, a qualidade
dos dados públicos varia muito, e uma grande parte dos dados públicos disponíveis são
publicados em formatos que não foram feitos para este tipo de processamento. Por exemplo,
no caso dos dados publicados em diários oficiais pelos diversos entes da federação no Brasil,
a maioria dos municípios e estados disponibiliza os dados em formato PDF, que apresenta
diversas dificuldades, enquanto que o Diário Oficial da União (DOU) já possui protocolos
de publicação que facilitam o processamento de dados. Neste trabalho realizou-se uma
implementação que fosse capaz de realizar a segmentação de publicações de diários oficiais
a partir dos arquivos PDF provenientes dos repositórios oficiais em que estas publicações
são disponibilizadas ao público em geral. A implementação realizada fez uso de técnicas de
aprendizado supervisionado e testou-se diversos modelos esparsos disponíveis nas principais
ferramentas de bibliotecas públicas para verificar e comparar o seu desempenho utilizando
um benchmark previamente definido. |
Abstract: | The application of machine learning techniques to textual data has grown exponentially in
recent years, mainly due to the high availability of more complex models and the enormous
amounts of data available for this task. For these data to be valuable, most machine learning
algorithms usually need pre-processed and annotated to be used in supervised training
models. An essential factor in the use of information obtained from textual data from this
type of approach is that they are usually indexed in large databases for searching. Correctly
segmenting text portions from raw files can significantly facilitate the search for information
and even further processing of these texts. However, the quality of public data varies widely,
and a large part of the shared data is published in formats not designed for this type of
processing. For example, in the case of data published in official journals by the various
entities of the federation in Brazil, most municipalities and states make the data available in
PDF format, which presents several difficulties. In contrast, the Official Gazette of the Union
(DOU) already has publication protocols that facilitate data processing. In this work, an
implementation was carried out that was able to segment official journal publications from
PDF files from the official repositories in which these publications are made available to the
general public. The implementation used supervised learning techniques, and several sparse
models available in the main tools of public libraries were tested to verify and compare their
performance using a previously defined benchmark. |
Informações adicionais: | Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Faculdade de Tecnologia, 2022. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia Mecatrônica
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.