Campo Dublin Core | Valor | Língua |
dc.contributor.advisor | Faria, Matheus de Sousa | - |
dc.contributor.author | Caixeta Filho, Elmar Roberto | - |
dc.identifier.citation | CAIXETA FILHO, Elmar Roberto. Aprendizado por reforço aplicado ao ambiente Toy Text da plataforma Gym. 2018. 55 f., il. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Software)—Universidade de Brasília, Brasília, 2018. | pt_BR |
dc.description | Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Faculdade UnB Gama, 2018. | pt_BR |
dc.description.abstract | Será apresentado neste trabalho a aplicação de uma abordagem de aprendizagem por
reforço, Q-Learning, no ambiente de treinamento e abstração de jogos, Toy Text, disponível
na ferramenta Gym. O ambiente escolhido possui uma interface numérica em texto, sendo
o Taxi como jogo usado para aplicação. Não houve modificações algorítmicas e todas as
adições de parâmetros foram baseadas em padrões e conceito da própria abordagem que
visam a resolução de alguns problemas conhecidos, como exemplo, o controle do processo
markoviano. Fora implementado um agente com ações aleatórias para a comparação e
análise dos resultados dos treinamentos. | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject.keyword | Inteligência artificial | pt_BR |
dc.title | Aprendizado por reforço aplicado ao ambiente Toy Text da plataforma Gym | pt_BR |
dc.type | Trabalho de Conclusão de Curso - Graduação - Bacharelado | pt_BR |
dc.date.accessioned | 2019-02-28T11:10:06Z | - |
dc.date.available | 2019-02-28T11:10:06Z | - |
dc.date.submitted | 2018-06-01 | - |
dc.identifier.uri | http://bdm.unb.br/handle/10483/21559 | - |
dc.language.iso | Português | pt_BR |
dc.description.abstract1 | In this paper we will present the application of a reinforcement learning (RL) approach, QLearning,
in the game training and abstraction environment, Toy Games, available in the
Gym toolkit. The chosen environment has a text numeric interface, being Taxi as game
used for analyze. There were no algorithmic modifications and all parameter additions
were based on standards and concept of the approach itself that aims the resolution of
some known problems such as control of the Markovian process. An agent with random
actions was implemented to compare and analyze the results of the training. | pt_BR |
Aparece na Coleção: | Engenharia de Software
|