Similaridade de processos judiciários utilizando processamento de linguagem natural

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/43062

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2025_BrunoGondimToledo_tcc.pdf		872,75 kB	Adobe PDF	ver/abrir

Título:	Similaridade de processos judiciários utilizando processamento de linguagem natural
Autor(es):	Toledo, Bruno Gondim
Orientador(es):	Rodrigues, Thais Carvalho Valadares
Assunto:	Análise de agrupamento (Estatística) Processamento de linguagem natural (Computação) Vetorizacão de texto
Data de apresentação:	17-Fev-2025
Data de publicação:	26-Dez-2025
Referência:	Toledo, Bruno Gondim. Similaridade de processos judiciários utilizando processamento de linguagem natural. 2025. 57 f., il. Trabalho de Conclusão de Curso (Bacharelado em Estatística) – Universidade de Brasília, Brasília, 2025.
Resumo:	Com objetivo de contribuir com uma das metas de gestao da presidência do Ministro Luís Roberto Barroso de diminuiçao do acervo de processos de controle concentrado de constitucionalidade do Supremo Tribunal Federal (STF), nesse trabalho foram aplicadas tecnicas de processamento de linguagem natural para encontrar processos semelhantes no acervo. Foram utilizadas tecnicas de vetorização, como tokenização e Bag of Words, bem como metricas de similaridade, como distancia do cosseno e divergencia de Jensen- Shannon, a fim de encontrar semelhancas entre uma petição de entrada e os processos em tramitaçao no STF. Nesse trabalho tambem foi desenvolvido um aplicativo Shiny para retornar os resultados da busca por processos similares, utilizando tecnicas amplamente aceitas na bibliografia e em conformidade com demais tecnologias do Tribunal sempre que possível, a fim de legar uma ferramenta util e pratica aos analistas do Tribunal. Este estudo foi capaz de produzir uma aplicacão com bom desempenho e baixo custo computacional utilizando um modelo de Bag of Words metrificados sobre a distancia do cosseno entre os dados, e, portanto, pode ser uma ferramenta util em auxiliar no cumprimento desta meta de gestão do Ministro Presidente.
Abstract:	With the aim of addressing one of the management goals of the presidency of Minister Luís Roberto Barroso, which is to reduce the backlog of concentrated consti- tutional Control pending cases at the Supreme Federal Court (STF), this study applied natural language processing techniques to identify similar cases among the pending cases at the Court. Techniques such as vectorization, including tokenization and Bag of Words, as well as similarity metrics like cosine distance and Jensen-Shannon divergence, were employed to find similarities between an incoming petition and the ongoing cases at the STF. Additionally, a Shiny application was developed to return the results of the search for similar cases, utilizing widely accepted techniques in the literature and aligning with the Court's existing technologies whenever possible, in order to provide a useful and prac- tical tool for the Court’s analysts. This study successfully produced an application with good performance and low computational cost by using a Bag of Words model measured by cosine distance between the data, and thus, it can be a valuable tool in assisting the achievement of this management goal set by the President Minister.
Informações adicionais:	Trabalho de Conclusão de Curso (graduação) – Universidade de Brasília, Departamento de Estatística, 2025.
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:	Estatística

Mostrar item em formato completo Recomendar este item Visualizar estatísticas