Título: | BertBR : a pretrained language model for law texts |
Autor(es): | Ciurlino, Victor Hugo |
Orientador(es): | Silva, Nilton Correia da |
Coorientador(es): | Guillou, Pierre Gatien Florent André |
Assunto: | Aprendizado de máquina Automação Linguagem jurídica Organização da informação |
Data de apresentação: | 24-Mai-2021 |
Data de publicação: | 25-Jun-2021 |
Referência: | CIURLINO, Victor Hugo. BertBR: a pretrained language model for law texts. 2021. 50 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Eletrônica)—Universidade de Brasília, Brasília, 2021. |
Resumo: | A aplicação de modelos de machine learning no âmbito jurídico está se tornando algo
indispensável na automação e na otimização de processos, tornando possível o desvio de
recursos de um trabalho mecânico e podendo concentrar esses recursos na parte mais
intelectual do processo. Modelos criados a partir da lingua portuguesa demonstram um
bom desempenho quando treinados para sub-tarefas da área de processamento de linguagem natural, tornando possível a extração e a classificação automatizada de documentos
jurídicos, otimizando o tempo de processos e melhorando o atendimento de órgãos em que
o volume de entrada para avaliação tende a ser maior que a sua vazão para as próximas
esferas ou o próprio deferimento do processo. Estes modelos por sí são eficazes, porém
parte da interpretação da linguagem jurídica é perdida, visto que a estrutura de sentenças
e de documentos completos escritos com esse "dialeto"podem se diferenciar da estrutura
normalmente usada e aquela em que os modelos são treinados. Afim de criar um modelo
especializado para esse tipo de texto, foi utilizado um modelo BERT(Bidirectional Encoder Representations from Transformers) treinado na lingua portuguesa e realizado um
processo de pós-treinamento utilizando textos jurídicos, afim de criar e disponibilizar um
modelo voltado para esse domínio. O modelo treinado alcançou um F1-Score de 94.39%
na subtarefa de reconhecimento de entidades nomeadas. |
Abstract: | The application of machine learning models in the legal domain is becoming indispensable
in the automation and optimization of processes, making it possible to redirect resources
from mechanical work and being able to concentrate these resources in the most intellectual part of the process. Models created from the Portuguese language demonstrate
a good performance when trained for sub-tasks in the area of natural language processing, making it possible to automate extract and classification tasks of legal documents,
optimizing the time of proceedings and improving the attendance of bodies in which the
volume of input for evaluation tends to be greater than its flow to the next spheres or
the deferral of the process itself. These models by themselves are effective, but part of
the interpretation of the legal language is lost, since the sentence structure and complete
documents written with this "dialect" can differ from the structure normally used and the
one in which the models are trained. In order to create a specialized model for this type
of text, a BERT model (Bidirectional Encoder Representations from Transformers) was
used, trained in Portuguese and a further pre-training process using legal texts, in order
to create and make available a model geared to that domain. The trained model achieved
an F1-Score of 94.39 % in the subtask of named entities recognition. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Faculdade UnB Gama, Engenharia Eletrônica, 2021. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia Eletrônica
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.