| Título: | Similaridade de processos judiciários utilizando processamento de linguagem natural |
| Autor(es): | Toledo, Bruno Gondim |
| Orientador(es): | Rodrigues, Thais Carvalho Valadares |
| Assunto: | Análise de agrupamento (Estatística) Processamento de linguagem natural (Computação) Vetorizacão de texto |
| Data de apresentação: | 17-Fev-2025 |
| Data de publicação: | 26-Dez-2025 |
| Referência: | Toledo, Bruno Gondim. Similaridade de processos judiciários utilizando processamento de linguagem natural. 2025. 57 f., il. Trabalho de Conclusão de Curso (Bacharelado em Estatística) – Universidade de Brasília, Brasília, 2025. |
| Resumo: | Com objetivo de contribuir com uma das metas de gestao da presidência do Ministro Luís Roberto Barroso de diminuiçao do acervo de processos de controle concentrado de constitucionalidade do Supremo Tribunal Federal (STF), nesse trabalho foram aplicadas tecnicas de processamento de linguagem natural para encontrar processos semelhantes no acervo. Foram utilizadas tecnicas de vetorização, como tokenização e Bag of Words, bem como metricas de similaridade, como distancia do cosseno e divergencia de Jensen-
Shannon, a fim de encontrar semelhancas entre uma petição de entrada e os processos em tramitaçao no STF. Nesse trabalho tambem foi desenvolvido um aplicativo Shiny para retornar os resultados da busca por processos similares, utilizando tecnicas amplamente aceitas na bibliografia e em conformidade com demais tecnologias do Tribunal sempre que possível, a fim de legar uma ferramenta util e pratica aos analistas do Tribunal. Este estudo foi capaz de produzir uma aplicacão com bom desempenho e baixo custo computacional utilizando um modelo de Bag of Words metrificados sobre a distancia do cosseno entre os dados, e, portanto, pode ser uma ferramenta util em auxiliar no cumprimento desta meta de gestão do Ministro Presidente. |
| Abstract: | With the aim of addressing one of the management goals of the presidency of
Minister Luís Roberto Barroso, which is to reduce the backlog of concentrated consti-
tutional Control pending cases at the Supreme Federal Court (STF), this study applied
natural language processing techniques to identify similar cases among the pending cases
at the Court. Techniques such as vectorization, including tokenization and Bag of Words,
as well as similarity metrics like cosine distance and Jensen-Shannon divergence, were
employed to find similarities between an incoming petition and the ongoing cases at the
STF. Additionally, a Shiny application was developed to return the results of the search
for similar cases, utilizing widely accepted techniques in the literature and aligning with
the Court's existing technologies whenever possible, in order to provide a useful and prac-
tical tool for the Court’s analysts. This study successfully produced an application with
good performance and low computational cost by using a Bag of Words model measured
by cosine distance between the data, and thus, it can be a valuable tool in assisting the
achievement of this management goal set by the President Minister. |
| Informações adicionais: | Trabalho de Conclusão de Curso (graduação) – Universidade de Brasília, Departamento de Estatística, 2025. |
| Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
| Aparece na Coleção: | Estatística
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.