Título: | Imagens sintéticas para aperfeiçoar a geração de legendas automáticas |
Autor(es): | Rodrigues, Ricardo Lima |
Orientador(es): | Borges, Díbio Leandro |
Assunto: | Inteligência artificial Processamento de linguagem natural (Computação) Imagens digitais |
Data de apresentação: | 10-Nov-2021 |
Data de publicação: | 5-Mar-2024 |
Referência: | RODRIGUES, Ricardo Lima. Imagens sintéticas para aperfeiçoar a geração de legendas automáticas. 2021. 62 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2021. |
Resumo: | Gerar descrições textuais de imagens tem sido um tópico importante em visão computa cional e Natural Language Processing (NLP). Grande parte do problema em se trabalhar
com qualquer modelo de machine learning, ou deep learning, vem da base de dados uti lizada, de como esses dados são tratados e de quão bem esses dados são capazes de fazer
uma representação geral do problema. Assim, esse trabalho teve como objetivo geral o
estudo sobre técnicas para aperfeiçoar a geração de legendas para imagens, utilizando
modelos de deep learning, pela diversificação do dataset utilizado no treinamento do mod elo. Foram usados diferentes tipos de Generative Adversarial Networks (GANs) para gerar
imagens sintéticas, como o AttnGAN, o DM-GAN e suas respectivas versões melhoradas
com contrastive learning, as quais substituíram imagens reais na base de dados utilizada,
sem modificar o tamanho original do dataset. Foram então utilizadas diversas métricas
como o IS, o FID e o R-Precision para analisar o desempenho das diferentes GANs. Com
ajuda da pontuação BLEU, foi analisada a performance do gerador de legendas sob o
treinamento de diferentes datasets com imagens reais e imagens sintéticas geradas pelas
diferentes GANs. Assim, pode-se demonstrar o aumento de performance e acurácia do
gerador de legendas para imagens reais, unicamente por consequência da introdução de
imagens sintéticas na base de dados original. Grande destaque é dado para o DM-GAN
ao superar as pontuações de candidatos anteriores e, consequentemente, abrir caminho
para o desenvolvimento de um novo modelo de geração de legendas capaz de superar o
estado da arte atual. |
Abstract: | Generating textual descriptions of images has been an important topic in computer vision
and natural language processing (NLP). The main issue in working with any machine or
deep learning model comes from the data acquired, how it’s processed and how well
this data is able to generalize the problem. Thus, this article’s main goal is to study
the necessary techniques required to improve image captioning, utilizing deep learning
models, through the diversification of data used. Different types of Generative Adversarial
Networks (GANs) are utilized to generate synthetic images such as AttnGAN, DM-GAN,
and their respective versions improved with contrastive learning. The synthetic images
replace real ones in the dataset without modifying its original size. Then, different metrics
are utilized to estimate the GANs final performance, such as IS, FID and R-Precision.
With BLEU score’s help, the efficiency of the image captioning module is analyzed by
testing different datasets mixed of real and synthetic images generated by GANs. The
goal is to demonstrate increased performance and accuracy of the captioning generator
for real images due exclusively to the introduction of synthetic images into the original
dataset. Great emphasis is given to the DM-GAN, as it surpasses the scores of previous
candidates and, therefore, paves the way of development for a new caption generator
capable of surpassing current state of the art approaches. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2021. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia Elétrica
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.