Título: | Aprendizagem por reforço no contexto de futebol de robôs : Robocup Soccer Simulation 2D |
Autor(es): | Dantas, Bruno Andreghetti Oliveira, Samuel Venzi Lima Monteiro de |
Orientador(es): | Romariz, Alexandre Ricardo Soares |
Assunto: | Aprendizado de máquina Robótica Robôs autônomos |
Data de apresentação: | Mai-2021 |
Data de publicação: | 3-Mai-2022 |
Referência: | DANTAS, Bruno Andreghetti; OLIVEIRA, Samuel Venzi Lima Monteiro de. Aprendizagem por reforço no contexto de futebol de robôs: Robocup Soccer Simulation 2D. 2021. 50 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia Mecatrônica) — Universidade de Brasília, Brasília, 2021. |
Resumo: | O cenário da aprendizagem de máquina tem crescido cada vez mais nos últimos anos. Junto a isso, iniciativas como a RoboCup buscam incentivar a aplicação dessas técnicas fomentando um cenário competitivo de futebol de robôs. Com a motivação de aumentar a diversidade de ferramentas dentro da categoria RoboCup Soccer Simulation 2D, nesse trabalho foi desenvolvida uma nova plataforma de desenvolvimento e são aplicadas técnicas de aprendizagem por reforço a fim de validá-la. Foram realizados experimentos com técnicas estabelecidas como SarsaeQ-Learning duplo tendo como objetivo realizar o maior número de gols possíveis durante o período de uma partida. As técnicas utilizadas validaram o funcionamento da plataforma desenvolvida ea utilização de comportamentos pré-programados aliado aQ-Learning duplo obteve uma política que alcançou gols consistentemente. |
Abstract: | The machine learning field has been increasingly growing over the last few years. Furthermore,scientific initiatives such as RoboCup seek to promote studies and applications of these techniquesby nurturing a competitive environment for robot soccer. In this project, with the motivationof expanding the diversity of tools in the RoboCup Soccer Simulation 2D category, a new deve-lopment platform was created and reinforcement learning techniques were applied to validate it.Experiments were run using established techniques, such as Sarsa and Double Q-Learning, withthe goal of scoring as many goals as possible during a match period. The techniques used validatedthe platform’s operation and the use of pre-programmed behaviors along with Double Q-Learningresulted in a policy capable of consistently scoring goals. |
Informações adicionais: | Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Faculdade de Tecnologia, Curso de Graduação em Engenharia de Controle e Automação, 2021. |
Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta. |
Aparece na Coleção: | Engenharia Mecatrônica
|
Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.