Use este identificador para citar ou linkar para este item:
http://hdl.handle.net/1843/83684
Tipo: | Tese |
Título: | Reward shaping for goal-oriented tasks using deep reinforcement learning |
Autor(es): | Victor Ricardo Fernandes Miranda |
Primeiro Orientador: | Leonardo Amaral Mozelli |
Primeiro Coorientador: | Armando Alves Neto |
metadata.dc.contributor.advisor-co2: | Gustavo Medeiros Freitas |
Primeiro membro da banca : | Paulo Lilles Jorge Drews Jr |
Segundo membro da banca: | Marcos Ricardo Omena de Albuquerque Maximo |
Terceiro membro da banca: | Luiz Chaimowicz |
Quarto membro da banca: | Frederico Gualberto Ferreira Coelho |
Resumo: | Esta tese aborda o desafio de projetar funções de recompensa eficazes para o treinamento de agentes utilizando aprendizado por reforço profundo (DRL) em tarefas orientadas a objetivos. O principal objetivo é acelerar o aprendizado, minimizar a ocorrência de ótimos locais, aumentar a eficiência e garantir que o agente se alinhe corretamente aos objetivos definidos. A pesquisa explora como as funções de recompensa podem contribuir para a melhoria da generalização das políticas, permitindo um desempenho robusto em cenários novos e não treinados. Um dos focos centrais da tese é a redução da lacuna entre simulação e realidade, facilitando a transferência de políticas aprendidas em ambientes simulados para aplicações reais complexas e dinâmicas, sem perda de desempenho ou necessidade de treinamento adicional. Como solução para o problema analisado, propõe-se uma função de recompensa com reward shaping baseada no princípio do Potential-Based Reward Shaping (PBRS), em que a recompensa é definida pela diferença entre funções potenciais. Demonstra-se que a inclusão do reward shaping proposto à função de recompensa não altera a otimalidade da política, assegurando que o agente aprenda o comportamento desejado com os benefícios da nova formulação de recompensa. A recompensa proposta, empregada no treinamento de agentes para a navegação autônoma de robôs sem mapas, apresenta desempenho superior em relação a outras funções de reward shaping da literatura baseadas na distância até o alvo. A comparação com funções de recompensa existentes indica uma aceleração na convergência do treinamento e um aumento no número de tarefas concluídas em um ambiente de teste após o treinamento. Além disso, o método proposto demonstrou robustez e obteve resultados superiores em relação a abordagens da literatura ao operar em ambientes distintos daqueles utilizados para o treinamento. Resultados similares foram observados na transferência zero-shot, tanto em sim-to-sim quanto em sim-to-real, superando métodos existentes mesmo quando transferido para robôs com arquiteturas diferentes das utilizadas no treinamento. Dessa forma, a abordagem inovadora apresentada para o uso de reward shaping na navegação de robôs visa aprimorar a generalização e sua aplicação em cenários desconhecidos, com resultados promissores tanto em simulação quanto em cenários reais. |
Abstract: | This thesis addresses the challenge of designing effective reward functions for training agents using deep reinforcement learning (DRL) in goal-oriented tasks. The main objective is to accelerate learning, minimize the occurrence of local optima, increase efficiency, and ensure that the agent correctly aligns with the defined objectives. The study explores how reward functions contribute to improving policy generalization, enabling robust performance in new and untrained scenarios. A key focus of this research is reducing the gap between simulation and reality, facilitating the transfer of policies learned in constrained simulated environments to complex and dynamic real-world applications without performance loss or the need for additional training. As a solution to the explored problem, we propose a reward function with reward shaping based on the Potential-Based Reward Shaping (PBRS) principle, where the reward is defined by the difference between potential functions. We demonstrate that adding the proposed reward shaping to the reward function does not interfere with policy optimality, ensuring that the agent learns the desired behavior while benefiting from the new reward function. The proposed reward function, applied to training agents in mapless autonomous robot navigation, achieves superior performance compared to other reward shaping functions in the literature that rely on distance to the target. Comparisons with existing reward functions indicate accelerated training convergence and an increase in the number of tasks completed in a test environment after training. Furthermore, the proposed method demonstrates robustness and achieves superior results compared to others in the literature when operating in environments different from those used for training. Similar results were obtained in zero-shot transfer, both in sim-to-sim and sim-to-real scenarios, outperforming existing methods even when transferred to robots with architectures different from those used during training. Thus, this innovative approach to reward shaping in robot navigation enhances generalization and its application in unknown scenarios, with promising results in both simulation and real-world environments. |
Assunto: | Engenharia elétrica Modelagem Navegação de robôs móveis |
Idioma: | eng |
País: | Brasil |
Editor: | Universidade Federal de Minas Gerais |
Sigla da Instituição: | UFMG |
Departamento: | ENG - DEPARTAMENTO DE ENGENHARIA ELÉTRICA |
Curso: | Programa de Pós-Graduação em Engenharia Elétrica |
Tipo de Acesso: | Acesso Aberto |
metadata.dc.rights.uri: | http://creativecommons.org/licenses/by-nc-nd/3.0/pt/ |
URI: | http://hdl.handle.net/1843/83684 |
Data do documento: | 9-Mai-2025 |
Aparece nas coleções: | Teses de Doutorado |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Reward shaping for goal-oriented tasks using deep reinforcement learning.pdf | 26.52 MB | Adobe PDF | Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons