Título: | Optical music recognition with Transformers |
Autor(es): | Carvalho, Hevelyn Sthefany Lima de |
Orientador(es): | Borges, Vinícius Ruela Pereira |
Assunto: | Reconhecimento Óptico de Música (OMR) Notação musical Leitura musical Imagens - leitura |
Data de apresentação: | 5-Mai-2022 |
Data de publicação: | 6-Jul-2023 |
Referência: | CARVALHO, Hevelyn Sthefany Lima de. Optical music recognition with Transformers. 2022. xi, 55 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) — Universidade de Brasília, Brasília, 2022. |
Resumo: | O Reconhecimento Óptico de Música (OMR) é um campo de pesquisa voltado para a análise de notações musicais em documentos ou superfícies digitais. Divide-se em duas abordagens: OMR offline, que trata da análise de partituras manuscritas digitalizadas, e OMR online, que envolve a análise da notação musical escrita em uma superfície digital. Embora essas tarefas tenham sido exploradas nos últimos anos, ambas as abordagens ainda oferecem desafios e oportunidades de pesquisa. Os resultados mais promissores até
então foram por meio de redes neurais convolucionais para classificar símbolos musicais. No entanto, aproveitando o recente desenvolvimento de arquiteturas de autoatenção, este trabalho apresenta um método para reconhecimento de símbolos musicais em dados online e offline utilizando Transformers para classificação de imagens. Experimentos foram realizados para validar o método proposto em seis conjuntos de dados padrão disponíveis publicamente, a saber, Handwritten Online Music Symbols (HOMUS), conjunto Seoul National University (SNU) para Reconhecimento de Símbolos de Música Online, Capitan_Score_Uniform,
apitan_Score_Nonuniform, Rebelo_real e Fornés. Três modelos de transformadores pré-treinados foram testados com os conjuntos de dados e seus desempenhos comparados: BEiT da equipe da Microsoft, ViT da equipe da Google e DEiT da equipe do Facebook. O método proposto alcança uma precisão de reconhecimento próxima das pesquias do estado da arte e, portanto, mostra-se uma abordagem promissora. Em geral, o método proposto apresentou resultados acima de 98%, sendo que o modelo utilizando a arquitetura DEiT apresentou o melhor desempenho na maioria dos casos. Por exemplo, o DEiT obteve 99,12% de pontuação F1, superando a pontuação F1 de 97,48% do método ensemble proposto por Paul [1] com dados do Homus. |
Abstract: | Optical Music Recognition (OMR) is a research field concerned with the analysis of music notations on documents or digital surfaces. It is divided into two approaches: offline OMR, which deals with the analysis of digitised handwritten scores, and online OMR, which involves the analysis of musical notation written on a digital surface. Although these tasks have been explored in the last years, both approaches still offer challenges and
research opportunities. The most promising results so far have been obtained by using convolutional neural networks to classify musical symbols. However, taking advantage of the recent development of self-attention architectures, this work presents a method for recognising musical symbols in online and offline data using Transformers for image classification. Experiments were performed in order to validate the proposed method on six publicly available standard datasets, namely Handwritten Online Music Symbols (HOMUS), Seoul National University (SNU) Dataset for Online Music Symbol Recognition, Capitan_Score_Uniform, Capitan_Score_Nonuniform, Rebelo_real, and Fornés. Three pre-trained transformer models were tested with the datasets and their performances compared: BEiT from the Microsoft team, ViT from the Google team, and DEiT from the Facebook team. The proposed method achieves recognition accuracy that is close to the
state-of-the-art researches, and thus proves to be a promising approach. In general, the proposed method provided results above 98%, with the model using the DEiT architecture showing the best performance in most cases. For example, DEiT achieved 99.12% of the F1 score, exceeding the 97.48% score of the ensemble method proposed by Paul [1] with Homus data. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.