Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/38819
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2023_MarianaMartinsDeSouza_tcc.pdf5,51 MBAdobe PDFver/abrir
Título: Desafios na implementação de modelos de Speech Transformer e Conformer para reconhecimento de fala silenciosa com eletromiografia
Autor(es): Souza, Mariana Martins de
Orientador(es): Pizo, Gerardo Antonio Idrobo
Assunto: Fala
Redes neurais (Computação)
Eletromiografia
Reconhecimento automático da voz
Data de apresentação: 11-Set-2023
Data de publicação: 10-Jun-2024
Referência: SOUZA, Mariana Martins de. Desafios na implementação de modelos de Speech Transformer e Conformer para reconhecimento de fala silenciosa com eletromiografia. 2023. 90 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia Eletrônica) — Universidade de Brasília, Brasília, 2023.
Resumo: O principal meio de comunicação entre os seres humanos é a fala, possibilitando a transmissão de ideias, emoções e informações. No entanto, há situações em que a comunicação por meio da fala não é viável devido à perda da capacidade de falar ao longo da vida, ambientes desfavoráveis ou a necessidade de privacidade. Nesse contexto, surge a necessidade de aplicar técnicas de reconhecimento de fala silenciosa, que permitem identificar o que está sendo dito com base na movimentação dos órgãos articulatórios, músculos faciais e do pescoço, utilizando métodos como leitura labial, ultrassom e outros sensores. Para abordar esse tema, realizou-se um estudo abrangente sobre o funcionamento da fala e as principais abordagens de reconhecimento de fala silenciosa desenvolvidas até o momento, bem como os métodos de processamento de sinais e reconhecimento de fala mais comuns. Com base nas referências consultadas, foi delineado um estudo de caso que servirá como base para experimentos futuros. Detalhes técnicos foram apresentados sobre a técnica de eletromiografia, que envolve a captura de dados por meio de eletrodos, assim como os principais métodos de amplificação de sinal e pré-processamento no contexto da eletro miografia. Também foram explorados métodos como STFT, MFCC, LSTM bidirecional, DTW, CCA, RNN, Transformer, Vocoder e CTC, com um foco específico no trabalho de Gaddy e Klein, que foi selecionado como referência para o estudo experimental. Na fase prática do trabalho, foram analisados dois modelos de redes neurais naturais: o Speech Transformer e o Conformer. Devido a limitações de hardware, não foi possível implementar e avaliar adequadamente o Speech Transformer. No entanto, o modelo Conformer foi implementado, embora tenha apresentado desafios, incluindo uma alta taxa de erro por palavra. Diversos testes foram conduzidos com diferentes otimizadores e taxas de aprendizado, mas não resultaram em melhorias substanciais. Acredita-se que as dimensões menores da arquitetura Conformer e o tamanho reduzido da base de dados possam ter contribuído para os resultados menos satisfatórios. Além disso, a escolha de utilizar o sinal EMG parametrizado manualmente em vez do EMG bruto pode ter impactado negativamente no processo de aprendizado. Para pesquisas futuras, é recomendado testar as hipóteses mencionadas e investigar a eficácia do código do modelo Conformer. Também seria benéfico conduzir experimentos com outras bases de dados e explorar configurações de modelos mais robustas, com o objetivo de aprimorar o desempenho do reconhecimento de fala silenciosa.
Abstract: The main means of communication among human beings is speech, enabling the transmission of ideas, emotions, and information. However, there are situations where speech communication is not feasible due to the loss of the ability to speak over one’s lifetime, unfavorable environments, or the need for privacy. In this context, there is a need to apply silent speech recognition techniques, which allow for the identification of what is being said based on the movement of articulatory organs, facial muscles, and the neck, using methods such as lip reading, ultrasound, and other sensors. To address this topic, a comprehensive study was conducted on the functioning of speech and the primary approaches to silent speech recognition developed to date, as well as the most common signal processing and speech recognition methods. Based on the consulted references, a case study was outlined, which will serve as a basis for future experiments. Technical details were provided on the electromyography technique, involving data capture through electrodes, as well as the main signal amplification and preprocessing methods in the context of electromyography. Methods such as STFT, MFCC, bidirectional LSTM, DTW, CCA, RNN, Transformer, Vocoder, and CTC were also explored, with a specific focus on the work of Gaddy and Klein, which was selected as a reference for the experimental study. In the practical phase of the work, two models of natural neural networks were analyzed: the Speech Transformer and the Conformer model. Due to hardware limitations, it was not possible to implement and adequately evaluate the Speech Transformer. However, the Conformer model was implemented, although it presented challenges, including a high word error rate. Several tests were conducted with different optimizers and learning rates, but substantial improvements were not achieved. It is believed that the smaller dimensions of the Conformer architecture and the reduced size of the database may have contributed to the less satisfactory results. Additionally, the choice to use manually parameterized EMG signals instead of raw EMG may have negatively impacted the learning process. For future research, it is recommended to test the mentioned hypotheses and investigate the effectiveness of the Conformer model’s code. It would also be beneficial to conduct experiments with other databases and explore more robust model configurations to enhance the performance of silent speech recognition.
Informações adicionais: Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Faculdade UnB Gama, 2023.
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:Engenharia Eletrônica



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.