Título: | Codificador de vídeo baseado em autoencoder variacional : uma análise de desempenho frente aos codificadores tradicionais HEVC e VVC |
Autor(es): | Martins, Luiz Gustavo Rodrigues |
Orientador(es): | Hung, Edson Mintsu |
Assunto: | Codificadores Inteligência artificial |
Data de apresentação: | 16-Nov-2021 |
Data de publicação: | 17-Fev-2023 |
Referência: | MARTINS, Luiz Gustavo Rodrigues. Codificador de vídeo baseado em autoencoder variacional: uma análise de desempenho frente aos codificadores tradicionais HEVC e VVC. 2021. xvi, 63 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) — Universidade de Brasília, Brasília, 2021. |
Resumo: | Codificadores de vídeo com aprendizado de ponta-a-ponta estão sendo desenvolvidos com a proposta de superar limitações dos codificadores tradicionais, os quais possuem algoritmos manuais que se tornam cada vez mais complexos para ganhos de desempenho cada vez mais limitados. Este estudo tem por objetivo realizar a análise de desempenho de um codificador de vídeo, baseado em uma arquitetura de aprendizado profundo conhecida como autoencoder variacional, o qual é composto de duas redes: uma intra-quadros e outra inter-quadros. Essas redes, embora dependentes, são treinadas de forma separada. Para a definição dos parâmetros a serem utilizados nos treinamentos dos modelos finais do codificador, primeiramente são realizados treinamentos testes das redes. Nos treinamentos testes da rede intra-quadros, foram realizados três grupos de treinamentos: (i) treinamento para gerar modelos a serem utilizados no treinamento teste da rede inter-quadros, (ii) treinamento com diferentes quantidades de filtros para se definir o número de filtros para os treinamentos finais, e (iii) treinamento com bases de dados diferentes para definir qual base será utilizada no treinamento final da rede intra-quadros e seus valores para o multiplicador Lagrangiano da função objetivo, conhecido como lambda. Em (ii) foram definidos 256 filtros para o treinamento final das redes e em (iii) foi definida a utilização de um banco de dados com imagens em formato .png (Portable Network Graphics) e dois valores de lambda, 10−2 e 10−3 . O treinamento teste da rede inter-quadros utilizou os modelos do treinamento teste (i) da rede intra-quadros e gerou modelos com diferentes combinações entre parâmetros lambda intra e inter. Analisando o comportamento dos modelos obtidos, foram definidos três valores de lambda para os modelos inter finais: 5 · 10−3 , 10−3 e 5 · 10−4 . Dessa forma, foram gerados seis modelos, com as combinações possíveis entre os lambdas intra e inter-quadros. Todos os treinamentos inter-quadros utilizaram o UGC Dataset. Com os modelos finais obtidos, foram realizadas compressões de sequências de vídeo do banco de dados JVET. Com isso, foram calculadas métricas PSNR, SSIM e MS-SSIM para o canal de luminância dos resultados obtidos. As mesmas métricas foram obtidas para compressões realizadas pelos codificadores tradicionais HEVC e VVC. Com métricas tanto para o codificador de vídeo neural quanto para os codificadores tradicionais, foi realizada a comparação de desempenho entre esses codificadores. Com as análises realizadas, concluiu-se que o desempenho do codificador de vídeo analisado neste estudo é comparável ao modo de configuração All Intra dos codificadores tradicionais HEVC e VVC, principalmente ao se considerar a métrica MS-SSIM |
Abstract: | Learning-based end-to-end video encoders are being developed with the purpose of overcoming limitations of traditional encoders, which have manual algorithms that are becoming more and more complex while performance gains are increasingly limited. In the present study, a video encoder with a variational autoencoder architecture, a kind of deep learning architecture, composed by an intra and inter-frame networks is subjected to analysis. These networks, although dependent, are trained separately. For setting parameters to the final models training, some test training of the networks is carried out. In the intraframe test trainings, three groups of training were set: (i) training for generating models to be used in the inter-frame test training, (ii) training with different number of filters for choosing the best one for the final training, and (iii) training with different databases to choose the one that will be used in the final training of the intra-frame models and choose its Lagrangian multiplier’s values of the objective function, known as lambda values. In (ii) 256 filters were choosen for the final training of the networks and in (iii) the database with .png (Portable Network Graphics) images was choosen and the values of 10−2 and 10−3 were defined for intra-frame lambda. The test inter-frame training used the models of the initial training in (i) and generated models with different combinations between intra and inter lambda parameters. Three values were chosen for inter-frame lambda: 5 · 10−3 , 10−3 and 5 · 10−4 . Thus, six final models were trained using intra and inter-frame lambdas combination. All inter-frame trainings used the UGC Dataset. In possession of the final models, compressions of some JVET video sequences were performed. Thus, PSNR, SSIM and MS-SSIM metrics were calculated for the lumma channel of the results. These metrics were also calculated for compressions performed by the traditional encoders HEVC and VVC. With metrics for both the learning-based video encoder and the traditional encoders, the performance comparison between these encoders was performed. After analysis, it was concluded that the performance of the video encoder analyzed in this study presents performance comparable to the All Intra mode of the traditional HEVC and VVC encoders, especially when considering the MS-SSIM metric. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2021. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia da Computação
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.