Avaliação de qualidade de um corpo de textos padrão-ouro de publicações oficiais

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/31284

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2022_MatheusStaufferVianaDeOliveira_tcc.pdf		1,51 MB	Adobe PDF	ver/abrir

Título:	Avaliação de qualidade de um corpo de textos padrão-ouro de publicações oficiais
Autor(es):	Oliveira, Matheus Stauffer Viana de
Orientador(es):	Borges, Vinícius Ruela Pereira
Assunto:	Texto - classificação Confiabilidade Aprendizado de máquina
Data de apresentação:	5-Mai-2022
Data de publicação:	29-Jun-2022
Referência:	OLIVEIRA, Matheus Stauffer Viana de. Avaliação de qualidade de um corpo de textos padrão-ouro de publicações oficiais. 2022. xii, 66 f., il. Trabalho de conclusão de curso (Licenciatura em Computação) — Universidade de Brasília, Brasília, 2022.
Resumo:	Publicações oficiais são o meio pelo qual os atos do governo são divulgados à sociedade. Esses documentos são uma rica fonte de informações, ao mesmo tempo que se constituem como um desafio para tarefas de extração de conhecimento. Diversas fontes contribuem para a redação de tais documentos, de maneira que a variabilidade de escrita resultante constitui-se como um obstáculo ao emprego de abordagens de descoberta de conheci mento pautadas em regras. No entanto, esse mesmo panorama é um incentivador de procedimentos feitos com aprendizado de máquina. Nesse contexto, este trabalho visa propor uma metodologia para a criação de um corpo de textos padrão-ouro formado por publicações do Diário Oficial do Distrito Federal visando tarefas de reconhecimento de entidades nomeadas e classificação. A metodologia consiste de um processo para anotação de dados textuais de maneira colaborativa e da avaliação da qualidade dos textos anota dos. Os resultados da aplicação da metodologia proposta utilizando dados rotulados do Diário Oficial do Distrito Federal indicaram que o corpo de textos construído apresenta alto grau de concordância entre os anotadores em relação à anotação a nível de entidades. Assim, os procedimentos descritos se mostraram apropriados para avaliar a qualidade de conjuntos de dados textuais quanto à rótulos, blocos de texto e aplicabilidade real em tarefas de aprendizado de máquina.
Abstract:	Official publications are the means by which government acts are made public. These documents are a rich source of information while constituting a challenge for knowledge extraction tasks. Several sources contribute to the writing of such documents so that the resulting writing variability constitutes an obstacle to the use of rules-based approaches to knowledge discovery. However, this same scenario is an incentive for procedures made with machine learning. In this context, this work aims to propose a methodology for the creation of a gold standard text dataset formed by publications from the Official Gazette of the Federal District, aiming at tasks of recognition of named entities and classification. The methodology consists of a process for collaboratively annotating textual data and evaluating the quality of the annotated texts. The results of the application of the pro posed methodology using data labeled from the Official Gazette of the Federal District indicated that the dataset constructed presents a high degree of agreement between the annotators in relation to the annotation at the level of entities. Thus, the described pro cedures proved to be appropriate to evaluate the quality of textual data sets regarding labels, text blocks, and real applicability in machine learning tasks.
Informações adicionais:	Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:	Computação

Mostrar item em formato completo Recomendar este item Visualizar estatísticas