Campo Dublin Core | Valor | Língua |
dc.contributor.advisor | Faleiros, Thiago de Paulo | - |
dc.contributor.author | Oliveira, Vitor Vasconcelos de | - |
dc.identifier.citation | OLIVEIRA, Vitor Vasconcelos de. Combining prompt-based language models and weak supervision for named entity recognition from legal documents. 2023. 36 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação) — Universidade de Brasília, Brasília, 2023. | pt_BR |
dc.description | Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023. | pt_BR |
dc.description.abstract | O Reconhecimento de Entidades Nomeadas (NER) é uma tarefa muito relevante para a recuperação de informações textuais em problemas de Processamento de Linguagem Natural (NLP). O estado da arte dos métodos de NER mais recentes exigem que humanos anotem e forneçam dados para o treinamento de modelos de aprendizado profundo. No entanto, usar força humana para identificar, circunscrever e rotular entidades manualmente pode ser extremamente caro em termos de tempo, dinheiro e esforço. Este artigo investiga o uso de modelos de linguagem baseados em prompt (OpenAI’s GPT-3) e supervisão fraca para a rotulação de textos de domínio jurídico. Aplicamos ambas estratégias como abordagens alternativas ao método tradicional de anotação baseado em força humana, contando com poder computacional em vez de esforço humano para rotular dados textuais, subsequentemente, comparamos os desempenhos de modelos gerados por computadores e modelos gerados por humanos. Também introduzimos combinações de todos os três métodos mencionados (modelos baseado em prompt, supervisão fraca e anotação humana), com o objetivo de encontrar maneiras de manter alta eficiência e baixo custo de anotação. Mostramos que, apesar da rotulação humana ainda manter melhores resultados de desempenho geral, as estratégias alternativas e suas combinações se apresentaram como opções válidas, exibindo resultados positivos e performance semelhantes a custos mais baixos. Resultados finais demonstram uma preservação de desempenho médio em relação a rotulação humana de 74,0% para o GPT-3, 95,6% para a supervisão fraca, 90,7%para a combinação de GPT + supervisão fraca e 83,9% para a combinação de GPT +30% rotulação humana. | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject.keyword | Reconhecimento de entidade nomeada | pt_BR |
dc.subject.keyword | Inteligência artificial | pt_BR |
dc.subject.keyword | Aprendizado de máquina | pt_BR |
dc.title | Combining prompt-based language models and weak supervision for named entity recognition from legal documents | pt_BR |
dc.type | Trabalho de Conclusão de Curso - Graduação - Bacharelado | pt_BR |
dc.date.accessioned | 2023-12-07T12:16:28Z | - |
dc.date.available | 2023-12-07T12:16:28Z | - |
dc.date.submitted | 2023-02-07 | - |
dc.identifier.uri | https://bdm.unb.br/handle/10483/37006 | - |
dc.language.iso | Português | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. | pt_BR |
dc.contributor.advisorco | Marcacini, Ricardo Marcondes | - |
dc.description.abstract1 | Named Entity Recognition (NER) is a very relevant task for text information retrieval inNatural Language Processing (NLP) problems. Most recent state-of-the-art NER meth ods require humans to annotate and provide useful data for model training. However, using human power to identify, circumscribe and label entities manually can be veryexpensive in terms of time, money, and effort. This paper investigates the use of prompt based language models (OpenAI’s GPT-3) and weak supervision in the legal domain. Weapply both strategies as alternative approaches to the traditional human-based annotation method, relying on computer power instead human effort for labeling, and subsequently compare model performance between computer and human-generated data. We also introduce combinations of all three mentioned methods (prompt-based, weak supervision, and human annotation), aiming to find ways to maintain high model efficiency andlow annotation costs. We showed that, despite human labeling still maintaining better overall performance results, the alternative strategies and their combinations presented themselves as valid options, displaying positive results and similar model scores at lower costs. Final results demonstrate preservation score of human-data trained models averaging 74.0% for GPT-3, 95.6% for weak supervision, 90.7% for GPT + weak supervisioncombination, and 83.9% for GPT + 30%Human-labeling combination. | pt_BR |
Aparece na Coleção: | Ciência da Computação
|