Título: | Expansão inteligente de amostras rotuladas : inovações e desafios na justiça brasileira |
Autor(es): | Oliveira, Jonathan Jorge Barbosa |
Orientador(es): | Silva, Nilton Correia da |
Coorientador(es): | Bonat, Débora |
Assunto: | Inteligência artificial Direito Processamento de linguagem natural (Computação) Rotulação de dados |
Data de apresentação: | 21-Dez-2023 |
Data de publicação: | 21-Mai-2024 |
Referência: | OLIVEIRA, Jonathan Jorge Barbosa. Expansão inteligente de amostras rotuladas: inovações e desafios na justiça brasileira. 2023. 102 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Software) — Universidade de Brasília, Brasília, 2023. |
Resumo: | No campo da aprendizagem de máquina, a rotulação manual de dados, especialmente no
setor jurídico, é fundamental, mas desafiadora. Este estudo se concentra no desenvolvimento
de um algoritmo de aprendizado semi-supervisionado para expandir uma base de dados
jurídica, com o objetivo de propagar precedentes qualificados que não são identificáveis
através de expressões regulares (regex) em sentenças de processos. A Análise Exploratória
de Dados (AED) é empregada para auxiliar na ampliação dessa rotulação de dados. A
validade e precisão do método são asseguradas por avaliações qualitativas conduzidas por
profissionais do direito. Ademais, o estudo explora o uso de algoritmos de classificação
transdutivos semi-supervisionados para incrementar a eficiência do sistema judiciário.
Entre os algoritmos avaliados, o "Mais Próximo"demonstrou ser o mais eficaz, aumentando
em 820% as amostras rotuladas na base jurídica, e mostrando grande potencial para
melhoria de desempenho com a adição de mais dados. |
Abstract: | This study delves into the challenges of manual data labeling in the field of machine
learning, particularly within the legal sector. It focuses on developing a semi-supervised
learning algorithm aimed at enhancing a legal database. The primary goal is to disseminate
qualified precedents that are not identifiable using regular expressions (regex) in legal case
texts. To facilitate the expansion of data labeling, Exploratory Data Analysis (EDA) is
utilized. The method’s validity and accuracy are confirmed through qualitative evaluations
conducted by legal professionals. Furthermore, the research investigates the application
of transductive semi-supervised classification algorithms to improve the efficiency of
the judicial system. Among the algorithms evaluated, the "Nearest Neighbor" algorithm
emerged as the most effective, achieving an 820% increase in labeled samples in the legal
database. This significant enhancement highlights the algorithm’s potential for performance
improvement with the integration of additional data. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Faculdade UnB Gama, 2023. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia de Software
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.