Estudo sobre redes neurais no problema da leitura labial automática

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/36306

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2023_LucasDeAlmeidaBandeiraMacedo_tcc.pdf		4,97 MB	Adobe PDF	ver/abrir

Registro completo

Campo Dublin Core	Valor	Língua
dc.contributor.advisor	Espinoza, Bruno Luiggi Macchiavello	-
dc.contributor.author	Macedo, Lucas de Almeida Bandeira	-
dc.identifier.citation	MACEDO, Lucas de Almeida Bandeira. Estudo sobre redes neurais no problema da leitura labial automática. 2023. 50 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação) — Universidade de Brasília, Brasília, 2023.	pt_BR
dc.description	Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.	pt_BR
dc.description.abstract	Este trabalho tem como objetivo o estudo da aplicação de redes neurais no problema da leitura labial de frases completas. O trabalho é baseado nas redes LipNet e LCANet, arquiteturas baseadas em convoluções tridimensionais e redes recorrentes. O estudo se baseia em uma série de ablações, testando formas de pré-processamento dos vídeos, apli- cação de modelos de linguagem no pós-processamento, e as duas arquiteturas citadas. O trabalho mostra que realizar o pré-processamento com um recorte dinâmico traz resulta- dos levemente piores, entre 14% e 16% de piora no WER em alguns casos. A LCANet demonstra resultados superiores à Lipnet, entre 7% e 36%, e com uma convergência muito mais rápida, adquirindo o valor 4 de perda na época 23, 29 épocas antes da LipNet. Por fim, a presença de um modelo de linguagem no pós-processamento traz resultados estri- tamente melhores em todos os casos de teste.	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject.keyword	Redes neurais convolucionais (Computação)	pt_BR
dc.subject.keyword	Leitura labial automática	pt_BR
dc.subject.keyword	Inteligência artificial	pt_BR
dc.title	Estudo sobre redes neurais no problema da leitura labial automática	pt_BR
dc.type	Trabalho de Conclusão de Curso - Graduação - Bacharelado	pt_BR
dc.date.accessioned	2023-10-06T11:28:36Z	-
dc.date.available	2023-10-06T11:28:36Z	-
dc.date.submitted	2023-07-26	-
dc.identifier.uri	https://bdm.unb.br/handle/10483/36306	-
dc.language.iso	Português	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.	pt_BR
dc.description.abstract1	The main goal of this work is to study the use of neural networks on the problem of lipreading complete sentences. This work is based on LipNet and LCANet, two neural network architectures based on tridimensional convolutions and recurrent networks. This study is based on a series of ablations over the pre-processing, architecture choices and the use of a language model while decoding the model’s output. THis work shows that using a dynamic crop, opposing to a fixed area crop, yields worse results, between 14% and 16% increase in WER. LCANet outperformed Lipnet, achieving up to 36% better accuracy and a faster convergence, obtaining 4 points of loss in the 23th epoch, 29 epochs faster than LipNet. Finally, the language model brought a strictly better accuracy over every test case.	pt_BR
Aparece na Coleção:	Ciência da Computação

Mostrar item em formato simples Recomendar este item Visualizar estatísticas