Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/27824
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2021_VictorHugoCiurline_tcc.pdf1,27 MBAdobe PDFver/abrir
Título: BertBR : a pretrained language model for law texts
Autor(es): Ciurlino, Victor Hugo
Orientador(es): Silva, Nilton Correia da
Coorientador(es): Guillou, Pierre Gatien Florent André
Assunto: Aprendizado de máquina
Automação
Linguagem jurídica
Organização da informação
Data de apresentação: 24-Mai-2021
Data de publicação: 25-Jun-2021
Referência: CIURLINO, Victor Hugo. BertBR: a pretrained language model for law texts. 2021. 50 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Eletrônica)—Universidade de Brasília, Brasília, 2021.
Resumo: A aplicação de modelos de machine learning no âmbito jurídico está se tornando algo indispensável na automação e na otimização de processos, tornando possível o desvio de recursos de um trabalho mecânico e podendo concentrar esses recursos na parte mais intelectual do processo. Modelos criados a partir da lingua portuguesa demonstram um bom desempenho quando treinados para sub-tarefas da área de processamento de linguagem natural, tornando possível a extração e a classificação automatizada de documentos jurídicos, otimizando o tempo de processos e melhorando o atendimento de órgãos em que o volume de entrada para avaliação tende a ser maior que a sua vazão para as próximas esferas ou o próprio deferimento do processo. Estes modelos por sí são eficazes, porém parte da interpretação da linguagem jurídica é perdida, visto que a estrutura de sentenças e de documentos completos escritos com esse "dialeto"podem se diferenciar da estrutura normalmente usada e aquela em que os modelos são treinados. Afim de criar um modelo especializado para esse tipo de texto, foi utilizado um modelo BERT(Bidirectional Encoder Representations from Transformers) treinado na lingua portuguesa e realizado um processo de pós-treinamento utilizando textos jurídicos, afim de criar e disponibilizar um modelo voltado para esse domínio. O modelo treinado alcançou um F1-Score de 94.39% na subtarefa de reconhecimento de entidades nomeadas.
Abstract: The application of machine learning models in the legal domain is becoming indispensable in the automation and optimization of processes, making it possible to redirect resources from mechanical work and being able to concentrate these resources in the most intellectual part of the process. Models created from the Portuguese language demonstrate a good performance when trained for sub-tasks in the area of natural language processing, making it possible to automate extract and classification tasks of legal documents, optimizing the time of proceedings and improving the attendance of bodies in which the volume of input for evaluation tends to be greater than its flow to the next spheres or the deferral of the process itself. These models by themselves are effective, but part of the interpretation of the legal language is lost, since the sentence structure and complete documents written with this "dialect" can differ from the structure normally used and the one in which the models are trained. In order to create a specialized model for this type of text, a BERT model (Bidirectional Encoder Representations from Transformers) was used, trained in Portuguese and a further pre-training process using legal texts, in order to create and make available a model geared to that domain. The trained model achieved an F1-Score of 94.39 % in the subtask of named entities recognition.
Informações adicionais: Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Faculdade UnB Gama, Engenharia Eletrônica, 2021.
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:Engenharia Eletrônica



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.