Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/37846
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2021_RicardoLimaRodrigues_tcc.pdf6,01 MBAdobe PDFver/abrir
Título: Imagens sintéticas para aperfeiçoar a geração de legendas automáticas
Autor(es): Rodrigues, Ricardo Lima
Orientador(es): Borges, Díbio Leandro
Assunto: Inteligência artificial
Processamento de linguagem natural (Computação)
Imagens digitais
Data de apresentação: 10-Nov-2021
Data de publicação: 5-Mar-2024
Referência: RODRIGUES, Ricardo Lima. Imagens sintéticas para aperfeiçoar a geração de legendas automáticas. 2021. 62 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2021.
Resumo: Gerar descrições textuais de imagens tem sido um tópico importante em visão computa cional e Natural Language Processing (NLP). Grande parte do problema em se trabalhar com qualquer modelo de machine learning, ou deep learning, vem da base de dados uti lizada, de como esses dados são tratados e de quão bem esses dados são capazes de fazer uma representação geral do problema. Assim, esse trabalho teve como objetivo geral o estudo sobre técnicas para aperfeiçoar a geração de legendas para imagens, utilizando modelos de deep learning, pela diversificação do dataset utilizado no treinamento do mod elo. Foram usados diferentes tipos de Generative Adversarial Networks (GANs) para gerar imagens sintéticas, como o AttnGAN, o DM-GAN e suas respectivas versões melhoradas com contrastive learning, as quais substituíram imagens reais na base de dados utilizada, sem modificar o tamanho original do dataset. Foram então utilizadas diversas métricas como o IS, o FID e o R-Precision para analisar o desempenho das diferentes GANs. Com ajuda da pontuação BLEU, foi analisada a performance do gerador de legendas sob o treinamento de diferentes datasets com imagens reais e imagens sintéticas geradas pelas diferentes GANs. Assim, pode-se demonstrar o aumento de performance e acurácia do gerador de legendas para imagens reais, unicamente por consequência da introdução de imagens sintéticas na base de dados original. Grande destaque é dado para o DM-GAN ao superar as pontuações de candidatos anteriores e, consequentemente, abrir caminho para o desenvolvimento de um novo modelo de geração de legendas capaz de superar o estado da arte atual.
Abstract: Generating textual descriptions of images has been an important topic in computer vision and natural language processing (NLP). The main issue in working with any machine or deep learning model comes from the data acquired, how it’s processed and how well this data is able to generalize the problem. Thus, this article’s main goal is to study the necessary techniques required to improve image captioning, utilizing deep learning models, through the diversification of data used. Different types of Generative Adversarial Networks (GANs) are utilized to generate synthetic images such as AttnGAN, DM-GAN, and their respective versions improved with contrastive learning. The synthetic images replace real ones in the dataset without modifying its original size. Then, different metrics are utilized to estimate the GANs final performance, such as IS, FID and R-Precision. With BLEU score’s help, the efficiency of the image captioning module is analyzed by testing different datasets mixed of real and synthetic images generated by GANs. The goal is to demonstrate increased performance and accuracy of the captioning generator for real images due exclusively to the introduction of synthetic images into the original dataset. Great emphasis is given to the DM-GAN, as it surpasses the scores of previous candidates and, therefore, paves the way of development for a new caption generator capable of surpassing current state of the art approaches.
Informações adicionais: Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2021.
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:Engenharia Elétrica



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.