Combining prompt-based language models and weak supervision for named entity recognition from legal documents

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/37006

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2023_VitorVOliveira_tcc.pdf		769,47 kB	Adobe PDF	ver/abrir

Registro completo

Campo Dublin Core	Valor	Língua
dc.contributor.advisor	Faleiros, Thiago de Paulo	-
dc.contributor.author	Oliveira, Vitor Vasconcelos de	-
dc.identifier.citation	OLIVEIRA, Vitor Vasconcelos de. Combining prompt-based language models and weak supervision for named entity recognition from legal documents. 2023. 36 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação) — Universidade de Brasília, Brasília, 2023.	pt_BR
dc.description	Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.	pt_BR
dc.description.abstract	O Reconhecimento de Entidades Nomeadas (NER) é uma tarefa muito relevante para a recuperação de informações textuais em problemas de Processamento de Linguagem Natural (NLP). O estado da arte dos métodos de NER mais recentes exigem que humanos anotem e forneçam dados para o treinamento de modelos de aprendizado profundo. No entanto, usar força humana para identificar, circunscrever e rotular entidades manualmente pode ser extremamente caro em termos de tempo, dinheiro e esforço. Este artigo investiga o uso de modelos de linguagem baseados em prompt (OpenAI’s GPT-3) e supervisão fraca para a rotulação de textos de domínio jurídico. Aplicamos ambas estratégias como abordagens alternativas ao método tradicional de anotação baseado em força humana, contando com poder computacional em vez de esforço humano para rotular dados textuais, subsequentemente, comparamos os desempenhos de modelos gerados por computadores e modelos gerados por humanos. Também introduzimos combinações de todos os três métodos mencionados (modelos baseado em prompt, supervisão fraca e anotação humana), com o objetivo de encontrar maneiras de manter alta eficiência e baixo custo de anotação. Mostramos que, apesar da rotulação humana ainda manter melhores resultados de desempenho geral, as estratégias alternativas e suas combinações se apresentaram como opções válidas, exibindo resultados positivos e performance semelhantes a custos mais baixos. Resultados finais demonstram uma preservação de desempenho médio em relação a rotulação humana de 74,0% para o GPT-3, 95,6% para a supervisão fraca, 90,7%para a combinação de GPT + supervisão fraca e 83,9% para a combinação de GPT +30% rotulação humana.	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject.keyword	Reconhecimento de entidade nomeada	pt_BR
dc.subject.keyword	Inteligência artificial	pt_BR
dc.subject.keyword	Aprendizado de máquina	pt_BR
dc.title	Combining prompt-based language models and weak supervision for named entity recognition from legal documents	pt_BR
dc.type	Trabalho de Conclusão de Curso - Graduação - Bacharelado	pt_BR
dc.date.accessioned	2023-12-07T12:16:28Z	-
dc.date.available	2023-12-07T12:16:28Z	-
dc.date.submitted	2023-02-07	-
dc.identifier.uri	https://bdm.unb.br/handle/10483/37006	-
dc.language.iso	Português	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.	pt_BR
dc.contributor.advisorco	Marcacini, Ricardo Marcondes	-
dc.description.abstract1	Named Entity Recognition (NER) is a very relevant task for text information retrieval inNatural Language Processing (NLP) problems. Most recent state-of-the-art NER meth ods require humans to annotate and provide useful data for model training. However, using human power to identify, circumscribe and label entities manually can be veryexpensive in terms of time, money, and effort. This paper investigates the use of prompt based language models (OpenAI’s GPT-3) and weak supervision in the legal domain. Weapply both strategies as alternative approaches to the traditional human-based annotation method, relying on computer power instead human effort for labeling, and subsequently compare model performance between computer and human-generated data. We also introduce combinations of all three mentioned methods (prompt-based, weak supervision, and human annotation), aiming to find ways to maintain high model efficiency andlow annotation costs. We showed that, despite human labeling still maintaining better overall performance results, the alternative strategies and their combinations presented themselves as valid options, displaying positive results and similar model scores at lower costs. Final results demonstrate preservation score of human-data trained models averaging 74.0% for GPT-3, 95.6% for weak supervision, 90.7% for GPT + weak supervisioncombination, and 83.9% for GPT + 30%Human-labeling combination.	pt_BR
Aparece na Coleção:	Ciência da Computação

Mostrar item em formato simples Recomendar este item Visualizar estatísticas