Utilize este link para identificar ou citar este item:
https://bdm.unb.br/handle/10483/21323
Título: | Aprendizagem por reforço utilizando Q-Learning e redes neurais artificiais em jogos eletrônicos |
Autor(es): | Mota, Ícaro da Costa |
Orientador(es): | Lamar, Marcus Vinicius |
Assunto: | Inteligência artificial |
Data de apresentação: | Jul-2018 |
Data de publicação: | 6-Fev-2019 |
Referência: | MOTA, Ícaro da Costa. Aprendizagem por reforço utilizando Q-Learning e redes neurais artificiais em jogos eletrônicos. 2018. 61 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Mecatrônica)—Universidade de Brasília, Brasília, 2018. |
Resumo: | Em aprendizagem por reforço, um agente deve aprender com suas experiências ao interagir com
o ambiente no qual se encontra. Este trabalho propõe um sistema de aprendizagem profunda com
o algoritmo Deep Q-Learning para ensinar um agente genérico a jogar jogos eletrônicos distintos,
utilizando redes neurais artificiais para estimar o valor de executar-se uma ação no estado no qual
o agente se encontra. O trabalho foi desenvolvido utilizando a ferramenta ROS para gerenciar
a comunicação entre os sistemas. Aplicou–se as técnicas desenvolvidos nos jogos Enduro, Ms.
Pacman, Breakout e Pong, emulados pela ferramenta OpenAI Gym, desenvolvida especificamente
para auxiliar em trabalhos de aprendizagem por reforço. O agente demonstrou aprender no jogo
Ms. Pacman, porém a modelagem do estado foi insuficiente nos jogos Breakout e Pong, resultando
na inabilidade do agente em selecionar a melhor ação no estado em que se encontrava. No jogo
Enduro, o agente não conseguiu interagir o suficiente com o ambiente para obter recompensas e
aprender a maximiza-las. |
Abstract: | In reinforcement learning, an agent must learn from past experiences by interacting with its
environment. This work proposes a deep learning system with the Deep Q-Learning algorithm
to teach a generic agent to play distinct electronic games, by using artificial neural networks to
estimate the value of executing an action in the state the agent finds itself. The work was developed
by using the ROS resource to manage the communication between systems. The developed
techniques were applied to the games Enduro, Ms. Pacman, Breakout, and Pong, emulated by
the OpenAI Gym toolkit, developed specifically to aid in reinforced learning projects. The agent
has shown to learn in the Ms. Pacman environment, but the state representation was insufficient
in the games Breakout and Pong, resulting in the agent’s inability to select the best action in its
current state. In the game Enduro, the agent did not interact enough with its environment to
obtain rewards and learn to maximize them. |
Informações adicionais: | Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Faculdade de Tecnologia, Curso de Graduação em Engenharia de Controle e Automação, 2018. |
Aparece na Coleção: | Engenharia Mecatrônica
|
Este item está licenciado na Licença Creative Commons