Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/39229
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2023_ViniciusAraujoPeres_tcc.pdf2,9 MBAdobe PDFver/abrir
Título: Classificação de entidades textuais nomeadas em publicações de diários oficiais utilizando Transformers
Autor(es): Peres, Vinícius Araújo
Orientador(es): Vidal, Flávio de Barros
Assunto: Processamento de linguagem natural (Computação)
Inteligência artificial
Diários oficiais
Data de apresentação: 20-Jul-2023
Data de publicação: 10-Jul-2024
Referência: PERES, Vinícius Araújo. Classificação de entidades textuais nomeadas em publicações de diários oficiais utilizando Transformers. 2023. 70 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia Mecatrônica) — Universidade de Brasília, Brasília, 2023.
Resumo: O processo de Reconhecimento de Entidades Nomeadas (REN) é uma das atividades fundamentais e formantes da área de Processamento de Linguagem Natural (PLN). Atualmente, existem diversas fontes de informações de dados textuais com valor importante para a sociedade. Dentre estas fontes de informações tem-se as publicações de diários oficiais. Tais publicações possuem diversos elementos textuais de alta relevância, as quais servem tanto para informar a sociedade, quanto para permitir a detecção de suspeita de atividades de conluio e fraudes em contratos e licitações. Assim sendo, esta monografia promove a realização de um fluxo de trabalho utilizando modelos de Transformer, de forma a permitir o reconhecimento de tais entidades nos textos de publicações de diários oficiais. A partir da informação de convênios públicos foi construída uma base de publicações anotadas que permite o treinamento de dois modelos de Transformer, BERT e RoBERTa, e posteriormente a comparação entre eles. Os resultados obtidos revelaram que ambos os modelos apresentaram desempenho geral bastante semelhante, alcançando F1-Scores de 94% e 94,2%, respectivamente. Porém, com variações no desempenho por tipo de entidade.
Abstract: he Named Entity Recognition (NER) process is one of the fundamental and formative activities in natural language processing. Currently, various sources of textual data information have significant value to society. Among these sources of information are official gazette publications. Such publications contain several text elements of high relevance that both inform society and enable the detection of suspicion of collusion and fraud activities in contracts and bids. Therefore, this monography promotes the realization of a workflow using Transformer models to allow the recognition of such entities in texts from official gazette publications. Based on public agreement information, an annotated publication database was built to train two Transformer models, BERT and RoBERTa, and, subsequently, compare them. The results revealed that both models showed a very similar overall performance, achieving F1-Scores of 94% and 94,2%, respectively, with variations in performance depending on the entity type.
Informações adicionais: Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Faculdade de Tecnologia, 2023.
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:Engenharia Mecatrônica



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.