Análise de políticas de exploração no aprendizado por reforço aplicado a jogos de Atari

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/33660

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2022_AntonioCarlosDeSouzaJunior.pdf		3,59 MB	Adobe PDF	ver/abrir

Título:	Análise de políticas de exploração no aprendizado por reforço aplicado a jogos de Atari
Autor(es):	Souza Junior, Antônio Carlos
Orientador(es):	Oliveira, Roberta Barbosa
Assunto:	Jogos Inteligência artificial Aprendizado por reforço Redes neurais (Computação)
Data de apresentação:	6-Mai-2022
Data de publicação:	17-Fev-2023
Referência:	SOUZA JUNIOR, Antônio Carlos. Análise de políticas de exploração no aprendizado por reforço aplicado a jogos de Atari. 2022. xiii, 71 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) — Universidade de Brasília, Brasília, 2022.
Resumo:	No aprendizado por reforço o dilema exploration-exploitation ainda é uma lacuna, sendo um dos maiores desafios da área. O dilema está relacionado à tomada de decisão, onde se deve decidir entre repetir o que foi feito no passado ou tentar novas ações que podem melhorar o resultado final. Ainda há carência de estudos que comparem as técnicas clássicas de exploração para aprendizado por reforço com técnicas mais atuais desenvolvidas para deep learning. O presente trabalho faz a comparação entre tais técnicas, com objetivo de compreender quais são mais eficientes na tarefa de auxiliar no aprendizado da inteligência artificial (agente). Para isso é proposta uma metodologia para o treinamento de diversas instâncias do agente, cada uma utilizando um dos jogos de Atari (ambiente): (a) Pong, (b) Breakout, e (c) Space Invaders, que são problemas desafiadores e com diferentes níveis de complexidade. Combinados com uma das seis diferentes políticas de exploração: (1) Aleatória, (2) Greedy, (3) Epsilon Greedy, (4) Boltzmann, (5) Decaying Epsilon Greedy, e (6) Random Noise. Todos os agentes são treinados utilizando o mesmo processo de aprendizagem utilizando Deep Q-learning, sem nenhum conhecimento prévio do ambiente e recebendo como estímulo do ambiente apenas imagens da tela do jogo. O desempenho de cada combinação ambiente-política foi avaliado com base na média de pontuação do agente obtida após interagir por 100 episódios com um dos jogos. De todas as políticas utilizadas para avaliação, a Decaying Epsilon Greedy foi a que obteve a maior média de pontuação nos jogos Pong e Space Invaders e a segunda maior no Breakout, perdendo somente para Random Noise, sendo, portanto, a melhor estratégia encontrada para auxiliar o agente a conseguir o melhor desempenho nos jogos de Atari.
Abstract:	In reinforcement learning, the dilemma exploration-exploitation is still a gap, being one of the biggest challenges in the field. The dilemma is related to decision making, where one must decide between repeating what was done in the past or trying new actions that can improve the final result. There is still a lack of studies comparing classical exploration techniques in reinforcement learning with techniques developed for deep learning. The present work makes a comparison between such techniques, in order to understand which ones are more efficient in the task of assisting in the learning of an artificial intelligence (agent). For this, a methodology is proposed for training several instances of the agent, each one using one of the Atari games (environment): (a) Pong; (b) Breakout; and (c) Space Invaders; which are challenging problems with different levels of complexity. Combined with one of six different exploration policies: (1) Random; (2) Greedy; (3) Epsilon Greedy; (4) Boltzmann; (5) Decaying Epsilon Greedy; and (6) Random Noise. All agents are trained using the same learning process using deep q-learning, without any prior knowledge of the environment and receiving only images of the game screen as an input from the environment. The performance of each environment-policy combination was evaluated based on the average agent score obtained after interacting for 100 episodes with one of the games. Of all the policies used for evaluation, Decaying Epsilon Greedy had the highest average score in Pong and Space Invaders and the second highest in Breakout, second only to Random Noise, being, therefore, the best strategy found to reach best performance in Atari games.
Informações adicionais:	Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:	Engenharia da Computação

Mostrar item em formato completo Recomendar este item Visualizar estatísticas