Aplicação de técnicas de "Deep Reinforcement Learning" na alocação de recursos de um sistema 5G para a comunicação D2D

Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/37398

Arquivos neste item:

Arquivo	Descrição	Tamanho	Formato
2021_GabrielDeFreitasCardoso_tcc.pdf		2,29 MB	Adobe PDF	ver/abrir

Título:	Aplicação de técnicas de "Deep Reinforcement Learning" na alocação de recursos de um sistema 5G para a comunicação D2D
Autor(es):	Cardoso, Gabriel Pimenta de Freitas
Orientador(es):	Carvalho, Paulo Henrique Portela de
Assunto:	Aprendizado de máquina Aprendizado por reforço Dispositivos móveis
Data de apresentação:	12-Nov-2021
Data de publicação:	25-Jan-2024
Referência:	CARDOSO, Gabriel Pimenta de Freitas. Aplicação de técnicas de "Deep Reinforcement Learning" na alocação de recursos de um sistema 5G para a comunicação D2D. 2021. 77 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2021.
Resumo:	Considerando a importância de aproveitar ao máximo os recursos disponíveis para as próximas gerações do sistema móvel, este trabalho propõe dois algoritmos inteligentes para realizar a alocação de recursos de um sistema em um ambiente urbano com comunicações prioritárias no uplink compartilhando espectro com comunicações device-to-device (D2D) em modo underlay em cenário in-coverage. Os algoritmos desenvolvidos tiveram estrutura monoagente e foram treinados utilizando técnicas de Deep Reinforcement Learning com política determinística, mais especificamente o DDPG e o TD3, devido à capacidade de otimizar problemas de alta complexidade e de definir ações de natureza contínua. Os modelos desenvolvidos mostraram-se eficazes na proteção das comunicações prioritárias e na maximização das taxas de transmissão das comunicações D2D, realizando o controle de potência e a alocação de espectro de comunicações de um sistema móvel. Por outro lado, o desempenho dos algoritmos propostos mostrou-se dependente da dimensão do problema, de forma que, à medida que a dimensionalidade aumentou, o desempenho do modelo ficou comprometido. Isso é um reflexo das limitações do processo de treinamento dos algoritmos DRL e da dificuldade de realizar alocação através de um modelo centralizado. As principais contribuições deste trabalho são propor um modelo que realiza a alocação completa de recursos, controlando a potência e alocando o espectro, por meio de um esquema centralizado treinado com algoritmos de DRL. Além disso, a realização da alocação com a possibilidade de as comunicações D2D usarem mais de um RB aumenta as possibilidades de alocação, o que é discutido neste trabalho.
Abstract:	Considering the importance of utilize the most of the resources available for the next generation of the mobile system, this work proposes two intelligent algorithms to perform a resource allocation of a system in urban environment with priority communications on uplink sharing spectrum with device-to-device communications in uderlay mode and in-coverage (D2D). The developed mono-agent algorithms and were trained using Deep Reinforcement Learning techniques with deterministic policy, more specifically the DDPG and the TD3, due to the ability to optimize high complexity problems and the possibility of defining continous actions. The developed models proved to be effective in protecting priority communications and maximizing the transmission rates of D2D communications, performing power control and spectrum allocation of a mobile system. On the other hand, the performance of the proposed algorithms depends on the dimensionality of the problem, so that, as the dimensionality increased, the performance of the model was compromised. This is a reflection of the limitations of the DRL algorithm training process and the difficulty of performing allocation through a centralized model. The main contributions of this work are to propose a model that performs a com plete resource allocation, controlling power and allocating spectrum, through a centralized scheme trained using DRL algorithms. Furthermore, the possibility of communications D2D using more than one RB increases the possibilities of allocation, which is discussed in this work.
Informações adicionais:	Trabalho de Conclusão de Curso (graduação) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2021.
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:	Engenharia Elétrica

Mostrar item em formato completo Recomendar este item Visualizar estatísticas