Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/31284
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2022_MatheusStaufferVianaDeOliveira_tcc.pdf1,51 MBAdobe PDFver/abrir
Registro completo
Campo Dublin CoreValorLíngua
dc.contributor.advisorBorges, Vinícius Ruela Pereira-
dc.contributor.authorOliveira, Matheus Stauffer Viana de-
dc.identifier.citationOLIVEIRA, Matheus Stauffer Viana de. Avaliação de qualidade de um corpo de textos padrão-ouro de publicações oficiais. 2022. xii, 66 f., il. Trabalho de conclusão de curso (Licenciatura em Computação) — Universidade de Brasília, Brasília, 2022.pt_BR
dc.descriptionTrabalho de conclusão de curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.pt_BR
dc.description.abstractPublicações oficiais são o meio pelo qual os atos do governo são divulgados à sociedade. Esses documentos são uma rica fonte de informações, ao mesmo tempo que se constituem como um desafio para tarefas de extração de conhecimento. Diversas fontes contribuem para a redação de tais documentos, de maneira que a variabilidade de escrita resultante constitui-se como um obstáculo ao emprego de abordagens de descoberta de conheci mento pautadas em regras. No entanto, esse mesmo panorama é um incentivador de procedimentos feitos com aprendizado de máquina. Nesse contexto, este trabalho visa propor uma metodologia para a criação de um corpo de textos padrão-ouro formado por publicações do Diário Oficial do Distrito Federal visando tarefas de reconhecimento de entidades nomeadas e classificação. A metodologia consiste de um processo para anotação de dados textuais de maneira colaborativa e da avaliação da qualidade dos textos anota dos. Os resultados da aplicação da metodologia proposta utilizando dados rotulados do Diário Oficial do Distrito Federal indicaram que o corpo de textos construído apresenta alto grau de concordância entre os anotadores em relação à anotação a nível de entidades. Assim, os procedimentos descritos se mostraram apropriados para avaliar a qualidade de conjuntos de dados textuais quanto à rótulos, blocos de texto e aplicabilidade real em tarefas de aprendizado de máquina.pt_BR
dc.rightsAcesso Abertopt_BR
dc.subject.keywordTexto - classificaçãopt_BR
dc.subject.keywordConfiabilidadept_BR
dc.subject.keywordAprendizado de máquinapt_BR
dc.titleAvaliação de qualidade de um corpo de textos padrão-ouro de publicações oficiaispt_BR
dc.typeTrabalho de Conclusão de Curso - Graduação - Licenciaturapt_BR
dc.date.accessioned2022-06-29T18:16:58Z-
dc.date.available2022-06-29T18:16:58Z-
dc.date.submitted2022-05-05-
dc.identifier.urihttps://bdm.unb.br/handle/10483/31284-
dc.language.isoPortuguêspt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.pt_BR
dc.description.abstract1Official publications are the means by which government acts are made public. These documents are a rich source of information while constituting a challenge for knowledge extraction tasks. Several sources contribute to the writing of such documents so that the resulting writing variability constitutes an obstacle to the use of rules-based approaches to knowledge discovery. However, this same scenario is an incentive for procedures made with machine learning. In this context, this work aims to propose a methodology for the creation of a gold standard text dataset formed by publications from the Official Gazette of the Federal District, aiming at tasks of recognition of named entities and classification. The methodology consists of a process for collaboratively annotating textual data and evaluating the quality of the annotated texts. The results of the application of the pro posed methodology using data labeled from the Official Gazette of the Federal District indicated that the dataset constructed presents a high degree of agreement between the annotators in relation to the annotation at the level of entities. Thus, the described pro cedures proved to be appropriate to evaluate the quality of textual data sets regarding labels, text blocks, and real applicability in machine learning tasks.pt_BR
Aparece na Coleção:Computação



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.