Título: | Reconhecimento automático de fala aplicada ao controle de tráfego aéreo |
Autor(es): | Castro, Matheus Feitosa de |
Orientador(es): | Weigang, Li |
Assunto: | Processamento de linguagem natural (Computação) Tráfego aéreo Aprendizado de máquina Reconhecimento automático da voz |
Data de apresentação: | 17-Jan-2023 |
Data de publicação: | 12-Dez-2023 |
Referência: | CASTRO, Matheus Feitosa de. Reconhecimento automático de fala aplicada ao controle de tráfego aéreo. 2023. 58 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) — Universidade de Brasília, Brasília, 2023. |
Resumo: | A fala é o principal meio de comunicação entre as pessoas, e um importante pilar da aviação atual na comunicação entre controlador de tráfego aéreo e piloto. Por meio da comunicação falada, um controlador informa ao piloto pistas de pouso, decolagem, realiza o controle da altitude e realiza comunicações de emergência. Por isso, novas tecnologias para se evitarem ruídos de comunicação entre controlador e piloto são essenciais para a aviação.Existem diversos exemplos reais onde problemas de comunicação geraram acidentes catastróficos, como a colisão de Charki Dadri, que gerou 347 fatalidades, e o desastre aéreo de Tenerife que causou 583 fatalidades. Por esse motivo, este trabalho implementa e avalia um sistema de reconhecimento automático de fala que possa ser utilizado em sistemas de controle de tráfego aéreo. No trabalho foi utilizado o modelo Whisper, um modelosequence-to-sequence, baseado no modelo encoder-decoder em transformer, pré-treinado em várias configurações, e então realizado aprendizado por transferência em cima dessesmodelos pré-treinados para terem suas performances e taxas de erro avaliadas. A base de dados utilizada possui aproximadamente 10 horas de áudio falado e foi dividida em aproximadamente 6 horas de treino, 2 horas de validação e 2 horas de teste. Com uma base de treino tão pequena, seria de se esperar que o resultado do aprendizado por transferência fosse pequeno, porém nos testes realizados, apesar da base pequena, foi possível obter melhoria de até 25% na word error rate (WER). |
Abstract: | Speech is the primary method of communication in society and an important pillar of
current aviation as it is used in the communication between air traffic controllers and pi lots. Through spoken communication, a controller informs the pilot of landing and takeoff
tracks, performs altitude control, and performs emergency communications. Therefore,
new technologies to avoid communication noise between driver and pilot are essential for
aviation. There are several examples where communication problems led to catastrophic
accidents such as the Charki Dadri collision, which led to 347 fatalities, and the Tenerife
airport disaster which caused 583 fatalities. For this reason, this work implements and
evaluates an automatic speech recognition system that can be used in air traffic con trol systems. The Whisper, a sequence-to-sequence model, based on the encoder-decoder
model of the transformer, was used in several pre-trained configurations, and then fine tuned and adjusted to have their performances and error rating rates evaluated. The
database used has approximately 10 hours of spoken audio and was divided into approx imately 6 hours of training, 2 hours of validation, and 2 hours of testing. With such
a small training base, it would be expected that the fine-tuning improvement would be
small, but despite the small base, it was possible to obtain an improvement of up to 25%
in the word error rate (WER). |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.