Título: | DEEP : uma arquitetura para reconhecer emoção com base no espectro sonoro da voz de falantes da língua portuguesa |
Autor(es): | Campos, Gabriel Almeida Moutinho, Lucas da Silva |
Orientador(es): | Rocha Filho, Geraldo Pereira |
Assunto: | Inteligência artificial Aprendizado do computador Reconhecimento automático da voz |
Data de apresentação: | 24-Nov-2020 |
Data de publicação: | 21-Mai-2021 |
Referência: | CAMPOS, Gabriel A.; MOUTINHO, Lucas da S. DEEP: uma arquitetura para reconhecer emoção com base no espectro sonoro da voz de falantes da língua portuguesa. 2020. 57 f. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2020. |
Resumo: | O reconhecimento de emoção em fala é uma linha de pesquisa dentro da Inteligência Ar- tificial (IA) que exige arquiteturas robustas de modelos de Deep Learning (DL) para a correta distinção das emoções percebidas na voz. Para responder a essa exigência, trabal- hos recentes da literatura sugerem arquiteturas cada vez mais robustas, como a de modelos híbridos. No entanto, a utilização de múltiplas redes neurais de maneira sequencial pode ocasionar a propagação de erros entre os modelos. Além desse problema, ressalta-se que não foram encontrados outros trabalhos que treinam modelos em língua portuguesa. Dessa forma, a fim de lidar com as referidas limitações da literatura relacionada, neste trabalho é desenvolvida uma arquitetura para o reconhecimento de emoções com base em padrões presentes no espectro sonoro gerado pela voz de falantes da língua portuguesa: DEEP - DEtection of voice Emotion in Portuguese language (Detecção de Emoção na Voz na Linguagem Portuguesa). O DEEP é composto por um conjunto de modelos especialistas de redes neurais convolucionais, do inglês Convolutional Neural Networks (CNNs), mod- elos de DL treinados em língua portuguesa, cujo intuito visa à especialização da detecção de emoções. Para treinamento do modelo, foi utilizada a base de dados de voz em língua portuguesa VERBO, o que permite que esta tecnologia seja aplicada em diversas áreas nos países que têm esse idioma como oficial. Para avaliar os resultados da performance alcançada com a arquitetura proposta, em um primeiro momento, os modelos especialistas foram hiper parametrizados, o que permitiu o descobrimento de configurações otimizadas na detecção de cada emoção. Em seguida, as acurácias obtidas foram comparadas com as alcançadas por um modelo CNN classificador tradicionalmente apresentado na literatura relacionada, denominado neste trabalho por modelo baseline, em que foram observados ganhos de performance para todas as 7 emoções presentes no VERBO, com uma diferença média de 12.39%, tendo o maior ganho com a emoção Medo, esta que foi 24.42% maior quando comparado com a CNN. |
Abstract: | Speech emotion recognition is a line of research within Artificial Intelligence (AI) that re- quires complex architectures of Deep Learning (DL) models to distinguish the perceived emotions in voice. To fulfill this requirement, recent works suggest increasingly complex architectures, such as hybrid models. However, these models can propitiate error prop- agation among the sequentially placed models, increasing false positives. In addition to this problem, it is noteworthy that no other studies that train models in Portuguese were found. Thus, in order to deal with the referred limitations of the related literature, this work presents an architecture for emotion recognition based on patterns present in the sound spectrum generated by the voice of Portuguese speakers: DEEP - DEtection of voice Emotion in Portuguese language. DEEP is composed of specialist models of con- volutional neural networks (CNN) whose aim is to specialize in detecting emotions. The Portuguese voice database VERBO was used for training the model, which allows this technology to be applied in several areas in countries that have this language as an official language. To evaluate the proposed architecture, the specialist models were hyper param- eterized, which allowed the discovery of optimized configurations to detect each emotion. Then, the DEEP was compared with a CNN model, in which performance gains were observed for all seven emotions present in VERBO, with an average difference of 12.39%, having the highest gain with the Fear emotion, which was 24.42% higher when compared to CNN. |
Informações adicionais: | Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Ciência da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.