Resumo: | Vários sistemas de segurança se utilizam de recursos como senhas, identificação digital
e cartões para garantir acesso a materiais ou conteúdos apenas a pessoas previamente autorizadas.
Este trabalho propõe desenvolver e avaliar um sistema de liberação de acesso
com base no reconhecimento de voz para identificação do locutor, utilizando características
vocais previamente aprendidas aplicadas em diferentes classificadores.
A escolha da utilização de uma característica para reconhecimento de um indivíduo,
deve ser principalmente atrelada à aplicação. A identificação de um rosto por reconhecimento
de imagem, por exemplo, é uma alternativa que apresenta grande em alguns
sistemas, mas muitas vezes não é adequada. Um exemplo disso é a identificação de um
usuário para inicialização de um computador, onde muitas vezes o usuário se encontra
em um ambiente com ausência de luz, inviabilizando o reconhecimento. Outro fator
importante para a escolha das características é a efetividade de sua extração para um
reconhecimento com baixa taxa de erros. Considerando que a voz apresenta-se como
uma boa alternativa para identificação em muitas aplicações (uma porta que não deve
autorizar a todos, por exemplo) e que a extração de suas características é eficiente [5],
definimos que sua utilização para o reconhecimento de um indivíduo é adequada.
A utilização da voz para controle de determinada aplicação pode apresentar falhas na
segurança em alguns sistemas atuais (autorizar usuário não cadastrado, bloquear usuário
cadastrado ou até mesmo prover acesso sem requisição do mesmo). Por outro lado,
o uso desse recurso apresenta-se como uma alternativa mais conveniente para algumas
aplicações em meios de controle de acesso (ou outro tipo de controle).
A diferença entre a utilização do sinal de voz a outras características depende no meio
em que o sistema será inserido. Para um sistema de controle residencial (acionamento
de lâmpadas, cortinas e outros) a implementação de tal sistema é consideravelmente
adequada, tendo em vista que é cômodo, e que qualquer pessoa na residência, geralmente,
tem permissão para realizar tal ação. Já no ato do desbloqueio de um Smartphone, por
exemplo, não é prático que o usuário sempre tenha que fornecer a fala como entrada,
tendo em vista que isso ocorrerá frequentemente e, caso o sistema reconheça uma senha
em específico, temos de saber tratar as possíveis fraudes (gravações e outros). Deve-se
então analisar previamente a aplicação em que o sistema será inserido, para que tenhamos
o melhor desempenho em optar por um sistema de reconhecimento de voz ou um que
utilize outras características que apresentam suas peculiaridades (senha, biometria, retina
e outros).
O projeto do sistema consiste em duas partes: na primeira adquire-se e processa o
sinal de voz com o intuito de extrair a informação mais relevante para identificação de
locutor. Nesta etapa os recursos para validação do usuário são extraídos e tratados. Em
seguida, devemos implementar o primeiro classificadores propostos (Máquina de Vetor de
Suporte,Adaboost,RobustBoost e Bagging). Na segunda parte é projetado um algoritmo
usando os valores de um dos classificadores avaliados acima, de maneira a realizar a
identificação.
O processamento de tais sinais se faz necessário para uma eficaz análise dos recursos
que irão validar o locutor. Tendo em vista que a fala é um som de natureza mais complexa
(pois órgãos como os pulmões, a garganta, a boca e o nariz participam do processo
de ecoação e caracterização de cada indivíduo), ruídos turbulentos provenientes do ar
expelido ou do ambiente externo devem ser devidamente tratados pois podem atrapalhar
toda a cadeia de verificação do usuário.
O tratamento e processamento do sinal feito inicialmente, é indispensável para uma
verificação eficaz. O que acontece nos atuais sistemas de reconhecimento fonético é que,
para uma melhor calibração e eficiência do sistema, um banco de dados de teste relativamente
amplo precisa ser implementado e testado de forma a validar o mesmo. Essa
tarefa pode ser demasiadamente difícil levando em conta o pré processamento do sinal
ou a forma de teste implementada. Outros aspectos que dificultam essa etapa são as
diferentes formas que cada indivíduo tem de se comunicar, como dialetos e estilos de fala,
dificultando ainda mais o processamento do sinal.
A etapa de reconhecimento de locutor (apresenta maior desafio em eficiência na atualidade)
estudada na segunda parte desta proposta utiliza a princípio, máquina de vetor
de suporte. Basicamente esse método busca uma taxa de similaridade entre o sinal obtido
e o esperado, este último já pré adquirido e processado. Essa taxa de similaridade pode
ser obtida através do método convolucional, que lista o grau de sobreposição de um sinal
em relação a outro, ou seja, quanto mais próximo um padrão sonoro de outro, maior esse
grau.
Por fim, um hardware precisa ser desenvolvido para validação em tempo real de um
indivíduo previamente cadastrado. O protótipo em que será implementado tal sistema
irá realizar um controle de acesso em um sistema de fechadura. Tal fechadura poderá
ser implementada utilizando artifícios eletrônicos/mecânicos como motores de passo e
relés, ou uma fechadura previamente fabricada. Tal controle precisa ser cuidadosamente
calibrado, pois um usuário já pré cadastrado deverá ter o mínimo de problemas ao acessar
seu sistema, e outro não cadastrado nunca poderá ter êxito pois se tratando de sistemas
de segurança, a tolerância a falhas deve ser mínima. |