Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/21323
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2018_IcaroDaCostaMota_tcc.pdf2,05 MBAdobe PDFver/abrir
Título: Aprendizagem por reforço utilizando Q-Learning e redes neurais artificiais em jogos eletrônicos
Autor(es): Mota, Ícaro da Costa
Orientador(es): Lamar, Marcus Vinicius
Assunto: Inteligência artificial
Data de apresentação: Jul-2018
Data de publicação: 6-Fev-2019
Referência: MOTA, Ícaro da Costa. Aprendizagem por reforço utilizando Q-Learning e redes neurais artificiais em jogos eletrônicos. 2018. 61 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Mecatrônica)—Universidade de Brasília, Brasília, 2018.
Resumo: Em aprendizagem por reforço, um agente deve aprender com suas experiências ao interagir com o ambiente no qual se encontra. Este trabalho propõe um sistema de aprendizagem profunda com o algoritmo Deep Q-Learning para ensinar um agente genérico a jogar jogos eletrônicos distintos, utilizando redes neurais artificiais para estimar o valor de executar-se uma ação no estado no qual o agente se encontra. O trabalho foi desenvolvido utilizando a ferramenta ROS para gerenciar a comunicação entre os sistemas. Aplicou–se as técnicas desenvolvidos nos jogos Enduro, Ms. Pacman, Breakout e Pong, emulados pela ferramenta OpenAI Gym, desenvolvida especificamente para auxiliar em trabalhos de aprendizagem por reforço. O agente demonstrou aprender no jogo Ms. Pacman, porém a modelagem do estado foi insuficiente nos jogos Breakout e Pong, resultando na inabilidade do agente em selecionar a melhor ação no estado em que se encontrava. No jogo Enduro, o agente não conseguiu interagir o suficiente com o ambiente para obter recompensas e aprender a maximiza-las.
Abstract: In reinforcement learning, an agent must learn from past experiences by interacting with its environment. This work proposes a deep learning system with the Deep Q-Learning algorithm to teach a generic agent to play distinct electronic games, by using artificial neural networks to estimate the value of executing an action in the state the agent finds itself. The work was developed by using the ROS resource to manage the communication between systems. The developed techniques were applied to the games Enduro, Ms. Pacman, Breakout, and Pong, emulated by the OpenAI Gym toolkit, developed specifically to aid in reinforced learning projects. The agent has shown to learn in the Ms. Pacman environment, but the state representation was insufficient in the games Breakout and Pong, resulting in the agent’s inability to select the best action in its current state. In the game Enduro, the agent did not interact enough with its environment to obtain rewards and learn to maximize them.
Informações adicionais: Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Faculdade de Tecnologia, Curso de Graduação em Engenharia de Controle e Automação, 2018.
Aparece na Coleção:Engenharia Mecatrônica



Este item está licenciado na Licença Creative Commons Creative Commons