Avaliação de qualidade de um corpo de textos padrão-ouro de publicações oficiais

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/31284

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2022_MatheusStaufferVianaDeOliveira_tcc.pdf		1,51 MB	Adobe PDF	ver/abrir

Registro completo

Campo Dublin Core	Valor	Língua
dc.contributor.advisor	Borges, Vinícius Ruela Pereira	-
dc.contributor.author	Oliveira, Matheus Stauffer Viana de	-
dc.identifier.citation	OLIVEIRA, Matheus Stauffer Viana de. Avaliação de qualidade de um corpo de textos padrão-ouro de publicações oficiais. 2022. xii, 66 f., il. Trabalho de conclusão de curso (Licenciatura em Computação) — Universidade de Brasília, Brasília, 2022.	pt_BR
dc.description	Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.	pt_BR
dc.description.abstract	Publicações oficiais são o meio pelo qual os atos do governo são divulgados à sociedade. Esses documentos são uma rica fonte de informações, ao mesmo tempo que se constituem como um desafio para tarefas de extração de conhecimento. Diversas fontes contribuem para a redação de tais documentos, de maneira que a variabilidade de escrita resultante constitui-se como um obstáculo ao emprego de abordagens de descoberta de conheci mento pautadas em regras. No entanto, esse mesmo panorama é um incentivador de procedimentos feitos com aprendizado de máquina. Nesse contexto, este trabalho visa propor uma metodologia para a criação de um corpo de textos padrão-ouro formado por publicações do Diário Oficial do Distrito Federal visando tarefas de reconhecimento de entidades nomeadas e classificação. A metodologia consiste de um processo para anotação de dados textuais de maneira colaborativa e da avaliação da qualidade dos textos anota dos. Os resultados da aplicação da metodologia proposta utilizando dados rotulados do Diário Oficial do Distrito Federal indicaram que o corpo de textos construído apresenta alto grau de concordância entre os anotadores em relação à anotação a nível de entidades. Assim, os procedimentos descritos se mostraram apropriados para avaliar a qualidade de conjuntos de dados textuais quanto à rótulos, blocos de texto e aplicabilidade real em tarefas de aprendizado de máquina.	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject.keyword	Texto - classificação	pt_BR
dc.subject.keyword	Confiabilidade	pt_BR
dc.subject.keyword	Aprendizado de máquina	pt_BR
dc.title	Avaliação de qualidade de um corpo de textos padrão-ouro de publicações oficiais	pt_BR
dc.type	Trabalho de Conclusão de Curso - Graduação - Licenciatura	pt_BR
dc.date.accessioned	2022-06-29T18:16:58Z	-
dc.date.available	2022-06-29T18:16:58Z	-
dc.date.submitted	2022-05-05	-
dc.identifier.uri	https://bdm.unb.br/handle/10483/31284	-
dc.language.iso	Português	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.	pt_BR
dc.description.abstract1	Official publications are the means by which government acts are made public. These documents are a rich source of information while constituting a challenge for knowledge extraction tasks. Several sources contribute to the writing of such documents so that the resulting writing variability constitutes an obstacle to the use of rules-based approaches to knowledge discovery. However, this same scenario is an incentive for procedures made with machine learning. In this context, this work aims to propose a methodology for the creation of a gold standard text dataset formed by publications from the Official Gazette of the Federal District, aiming at tasks of recognition of named entities and classification. The methodology consists of a process for collaboratively annotating textual data and evaluating the quality of the annotated texts. The results of the application of the pro posed methodology using data labeled from the Official Gazette of the Federal District indicated that the dataset constructed presents a high degree of agreement between the annotators in relation to the annotation at the level of entities. Thus, the described pro cedures proved to be appropriate to evaluate the quality of textual data sets regarding labels, text blocks, and real applicability in machine learning tasks.	pt_BR
Aparece na Coleção:	Computação

Mostrar item em formato simples Recomendar este item Visualizar estatísticas