Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/37006
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2023_VitorVOliveira_tcc.pdf769,47 kBAdobe PDFver/abrir
Título: Combining prompt-based language models and weak supervision for named entity recognition from legal documents
Autor(es): Oliveira, Vitor Vasconcelos de
Orientador(es): Faleiros, Thiago de Paulo
Coorientador(es): Marcacini, Ricardo Marcondes
Assunto: Reconhecimento de entidade nomeada
Inteligência artificial
Aprendizado de máquina
Data de apresentação: 7-Fev-2023
Data de publicação: 7-Dez-2023
Referência: OLIVEIRA, Vitor Vasconcelos de. Combining prompt-based language models and weak supervision for named entity recognition from legal documents. 2023. 36 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação) — Universidade de Brasília, Brasília, 2023.
Resumo: O Reconhecimento de Entidades Nomeadas (NER) é uma tarefa muito relevante para a recuperação de informações textuais em problemas de Processamento de Linguagem Natural (NLP). O estado da arte dos métodos de NER mais recentes exigem que humanos anotem e forneçam dados para o treinamento de modelos de aprendizado profundo. No entanto, usar força humana para identificar, circunscrever e rotular entidades manualmente pode ser extremamente caro em termos de tempo, dinheiro e esforço. Este artigo investiga o uso de modelos de linguagem baseados em prompt (OpenAI’s GPT-3) e supervisão fraca para a rotulação de textos de domínio jurídico. Aplicamos ambas estratégias como abordagens alternativas ao método tradicional de anotação baseado em força humana, contando com poder computacional em vez de esforço humano para rotular dados textuais, subsequentemente, comparamos os desempenhos de modelos gerados por computadores e modelos gerados por humanos. Também introduzimos combinações de todos os três métodos mencionados (modelos baseado em prompt, supervisão fraca e anotação humana), com o objetivo de encontrar maneiras de manter alta eficiência e baixo custo de anotação. Mostramos que, apesar da rotulação humana ainda manter melhores resultados de desempenho geral, as estratégias alternativas e suas combinações se apresentaram como opções válidas, exibindo resultados positivos e performance semelhantes a custos mais baixos. Resultados finais demonstram uma preservação de desempenho médio em relação a rotulação humana de 74,0% para o GPT-3, 95,6% para a supervisão fraca, 90,7%para a combinação de GPT + supervisão fraca e 83,9% para a combinação de GPT +30% rotulação humana.
Abstract: Named Entity Recognition (NER) is a very relevant task for text information retrieval inNatural Language Processing (NLP) problems. Most recent state-of-the-art NER meth ods require humans to annotate and provide useful data for model training. However, using human power to identify, circumscribe and label entities manually can be veryexpensive in terms of time, money, and effort. This paper investigates the use of prompt based language models (OpenAI’s GPT-3) and weak supervision in the legal domain. Weapply both strategies as alternative approaches to the traditional human-based annotation method, relying on computer power instead human effort for labeling, and subsequently compare model performance between computer and human-generated data. We also introduce combinations of all three mentioned methods (prompt-based, weak supervision, and human annotation), aiming to find ways to maintain high model efficiency andlow annotation costs. We showed that, despite human labeling still maintaining better overall performance results, the alternative strategies and their combinations presented themselves as valid options, displaying positive results and similar model scores at lower costs. Final results demonstrate preservation score of human-data trained models averaging 74.0% for GPT-3, 95.6% for weak supervision, 90.7% for GPT + weak supervisioncombination, and 83.9% for GPT + 30%Human-labeling combination.
Informações adicionais: Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:Ciência da Computação



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.