Extração de dados com aprendizagem de máquina para processamento de informações em diários oficiais

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/34434

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2022_AntonioAurelianoDeAnicesioCardoso_tcc.pdf	Trabalho de Conclusão de Curso	2,47 MB	Adobe PDF	ver/abrir

Registro completo

Campo Dublin Core	Valor	Língua
dc.contributor.advisor	Vidal, Flávio de Barros	-
dc.contributor.author	Cardoso, Antônio Aureliano de Anicésio	-
dc.identifier.citation	CARDOSO, Antônio Aureliano de Anicésio. Extração de dados com aprendizagem de máquina para processamento de informações em diários oficiais. 2022. 68 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia Mecatrônica) — Universidade de Brasília, Brasília, 2022.	pt_BR
dc.description	Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Faculdade de Tecnologia, 2022.	pt_BR
dc.description.abstract	A aplicação de técnicas de aprendizagem de máquina em dados textuais tem crescido expo nencialmente nos últimos anos, principalmente devido à alta disponibilidade de modelos mais complexos e às enormes quantidades de dados disponíveis para esta tarefa. Para que estes dados tenham utilidade, a grande maioria dos algoritmos de aprendizagem de máquina normalmente necessita que os mesmos sejam pré-processados e anotados de alguma forma para serem utilizados no treinamento de modelos supervisionados. Um fator importante na utilização das informações obtidas de dados textuais a partir deste tipo de abordagem é que os mesmos são normalmente indexados em grandes bases de dados para busca. A correta segmentação de porções de textos a partir dos arquivos brutos pode facilitar muito a busca de informações e mesmo processamentos adicionais destes textos. No entanto, a qualidade dos dados públicos varia muito, e uma grande parte dos dados públicos disponíveis são publicados em formatos que não foram feitos para este tipo de processamento. Por exemplo, no caso dos dados publicados em diários oficiais pelos diversos entes da federação no Brasil, a maioria dos municípios e estados disponibiliza os dados em formato PDF, que apresenta diversas dificuldades, enquanto que o Diário Oficial da União (DOU) já possui protocolos de publicação que facilitam o processamento de dados. Neste trabalho realizou-se uma implementação que fosse capaz de realizar a segmentação de publicações de diários oficiais a partir dos arquivos PDF provenientes dos repositórios oficiais em que estas publicações são disponibilizadas ao público em geral. A implementação realizada fez uso de técnicas de aprendizado supervisionado e testou-se diversos modelos esparsos disponíveis nas principais ferramentas de bibliotecas públicas para verificar e comparar o seu desempenho utilizando um benchmark previamente definido.	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject.keyword	Aprendizado de máquina	pt_BR
dc.subject.keyword	Mineração de texto	pt_BR
dc.title	Extração de dados com aprendizagem de máquina para processamento de informações em diários oficiais	pt_BR
dc.type	Trabalho de Conclusão de Curso - Graduação - Bacharelado	pt_BR
dc.date.accessioned	2023-04-04T12:01:50Z	-
dc.date.available	2023-04-04T12:01:50Z	-
dc.date.submitted	2022-09-20	-
dc.identifier.uri	https://bdm.unb.br/handle/10483/34434	-
dc.language.iso	Português	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.	pt_BR
dc.description.abstract1	The application of machine learning techniques to textual data has grown exponentially in recent years, mainly due to the high availability of more complex models and the enormous amounts of data available for this task. For these data to be valuable, most machine learning algorithms usually need pre-processed and annotated to be used in supervised training models. An essential factor in the use of information obtained from textual data from this type of approach is that they are usually indexed in large databases for searching. Correctly segmenting text portions from raw files can significantly facilitate the search for information and even further processing of these texts. However, the quality of public data varies widely, and a large part of the shared data is published in formats not designed for this type of processing. For example, in the case of data published in official journals by the various entities of the federation in Brazil, most municipalities and states make the data available in PDF format, which presents several difficulties. In contrast, the Official Gazette of the Union (DOU) already has publication protocols that facilitate data processing. In this work, an implementation was carried out that was able to segment official journal publications from PDF files from the official repositories in which these publications are made available to the general public. The implementation used supervised learning techniques, and several sparse models available in the main tools of public libraries were tested to verify and compare their performance using a previously defined benchmark.	pt_BR
Aparece na Coleção:	Engenharia Mecatrônica

Mostrar item em formato simples Recomendar este item Visualizar estatísticas