Título: | Avaliação de qualidade de um corpo de textos padrão-ouro de publicações oficiais |
Autor(es): | Oliveira, Matheus Stauffer Viana de |
Orientador(es): | Borges, Vinícius Ruela Pereira |
Assunto: | Texto - classificação Confiabilidade Aprendizado de máquina |
Data de apresentação: | 5-Mai-2022 |
Data de publicação: | 29-Jun-2022 |
Referência: | OLIVEIRA, Matheus Stauffer Viana de. Avaliação de qualidade de um corpo de textos padrão-ouro de publicações oficiais. 2022. xii, 66 f., il. Trabalho de conclusão de curso (Licenciatura em Computação) — Universidade de Brasília, Brasília, 2022. |
Resumo: | Publicações oficiais são o meio pelo qual os atos do governo são divulgados à sociedade.
Esses documentos são uma rica fonte de informações, ao mesmo tempo que se constituem
como um desafio para tarefas de extração de conhecimento. Diversas fontes contribuem
para a redação de tais documentos, de maneira que a variabilidade de escrita resultante
constitui-se como um obstáculo ao emprego de abordagens de descoberta de conheci mento pautadas em regras. No entanto, esse mesmo panorama é um incentivador de
procedimentos feitos com aprendizado de máquina. Nesse contexto, este trabalho visa
propor uma metodologia para a criação de um corpo de textos padrão-ouro formado por
publicações do Diário Oficial do Distrito Federal visando tarefas de reconhecimento de
entidades nomeadas e classificação. A metodologia consiste de um processo para anotação
de dados textuais de maneira colaborativa e da avaliação da qualidade dos textos anota dos. Os resultados da aplicação da metodologia proposta utilizando dados rotulados do
Diário Oficial do Distrito Federal indicaram que o corpo de textos construído apresenta
alto grau de concordância entre os anotadores em relação à anotação a nível de entidades.
Assim, os procedimentos descritos se mostraram apropriados para avaliar a qualidade de
conjuntos de dados textuais quanto à rótulos, blocos de texto e aplicabilidade real em
tarefas de aprendizado de máquina. |
Abstract: | Official publications are the means by which government acts are made public. These
documents are a rich source of information while constituting a challenge for knowledge
extraction tasks. Several sources contribute to the writing of such documents so that the
resulting writing variability constitutes an obstacle to the use of rules-based approaches
to knowledge discovery. However, this same scenario is an incentive for procedures made
with machine learning. In this context, this work aims to propose a methodology for the
creation of a gold standard text dataset formed by publications from the Official Gazette
of the Federal District, aiming at tasks of recognition of named entities and classification.
The methodology consists of a process for collaboratively annotating textual data and
evaluating the quality of the annotated texts. The results of the application of the pro posed methodology using data labeled from the Official Gazette of the Federal District
indicated that the dataset constructed presents a high degree of agreement between the
annotators in relation to the annotation at the level of entities. Thus, the described pro cedures proved to be appropriate to evaluate the quality of textual data sets regarding
labels, text blocks, and real applicability in machine learning tasks. |
Informações adicionais: | Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.