Estratégias computacionais baseadas em similaridade de textos e visualização exploratória para a identificação de inconsistências em notas fiscais eletrônicas

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/36270

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2023_MayaraChewMarinho_tcc.pdf		3,75 MB	Adobe PDF	ver/abrir

Registro completo

Campo Dublin Core	Valor	Língua
dc.contributor.advisor	Borges, Vinícius Ruela Pereira	-
dc.contributor.author	Marinho, Mayara Chew	-
dc.identifier.citation	MARINHO, Mayara Chew. Estratégias computacionais baseadas em similaridade de textos e visualização exploratória para a identificação de inconsistências em notas fiscais eletrônicas. 2023. 74 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) — Universidade de Brasília, Brasília, 2023.	pt_BR
dc.description	Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.	pt_BR
dc.description.abstract	A fiscalização e a detecção de fraudes fiscais têm sido um desafio significativo devido à grande quantidade de notas fiscais geradas diariamente. Nesse contexto, esta pesquisa propõe duas abordagens para auxiliar os especialistas na tarefa de auditoria, utilizando o conjunto de dados não rotulado das Notas Fiscais Eletrônicas do Consumidor do Dis- trito Federal. A primeira abordagem é baseada em rotulação automática por meio de similaridade de textos para a detecção de casos suspeitos de fraude, e avaliação da repro- ducibilidade desses rótulos por Aprendizado de Máquina, utilizando a distância cosseno e a Edit Distance, e as formas de representação de textos Word2vec, Doc2vec, Trans- former Distiluse Multilingual e BERT. A segunda abordagem é baseada em visualização interativa utilizando TF-IDF e similaridade em conjunto com as técnicas MDS, t-SNE e UMAP para a análise visual dos dados e K-Means para a definição de agrupamentos. Os melhores resultados de avaliação automática foram obtidos com rótulos criados pela Edit Distance e os de visualização foram obtidos com a combinação da distância euclideana e cosseno, t-SNE e K-Means. Foi criada uma ferramenta web interativa de visualização, na qual os especialistas podem explorar as notas fiscais e obter informações relevantes para a otimização do processo de detecção de inconsistências em notas fiscais.	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject.keyword	Detecção de fraudes	pt_BR
dc.subject.keyword	Notas fiscais	pt_BR
dc.subject.keyword	Aprendizagem de máquina	pt_BR
dc.subject.keyword	Fraude pela Internet	pt_BR
dc.title	Estratégias computacionais baseadas em similaridade de textos e visualização exploratória para a identificação de inconsistências em notas fiscais eletrônicas	pt_BR
dc.type	Trabalho de Conclusão de Curso - Graduação - Bacharelado	pt_BR
dc.date.accessioned	2023-10-04T14:28:42Z	-
dc.date.available	2023-10-04T14:28:42Z	-
dc.date.submitted	2023-07-20	-
dc.identifier.uri	https://bdm.unb.br/handle/10483/36270	-
dc.language.iso	Português	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.	pt_BR
dc.description.abstract1	Fraud detection and prevention in fiscal documents have become time-consuming tasks due to the increasing number of daily issued electronic invoices that need to go through a manual audit process. In this context, this research proposes two approaches to assist specialists in the audit task, using the Consumer Electronic Invoices dataset. The first approach is based on automatic labeling by text similarity in order to identify suspected cases of fraud, and evaluation of reproducibility by Machine Learning, using cosine dis- tance and Edit Distance, and text representation techniques such as Word2vec, Doc2vec, Transformer Distiluse Multilingual and BERT. The second approach is based on visual- ization using TF-IDF, similarities and techniques such as MDS, t-SNE and UMAP for the visual analysis and K-Means for clusters definition. Best results were obtained with labels created by Edit Distance and the visualization ones were obtained with the combination of Euclidean and Cosine distance, t-SNE and K-Means. An interactive visualization tool web was created, in which specialists can explore invoices and obtain relevant information for optimizing the process of inconsistencies detection.	pt_BR
Aparece na Coleção:	Engenharia da Computação

Mostrar item em formato simples Recomendar este item Visualizar estatísticas