Reward shaping for goal-oriented tasks using deep reinforcement learning

Victor Ricardo Fernandes Miranda

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/83684

Tipo:	Tese
Título:	Reward shaping for goal-oriented tasks using deep reinforcement learning
Autor(es):	Victor Ricardo Fernandes Miranda
Primeiro Orientador:	Leonardo Amaral Mozelli
Primeiro Coorientador:	Armando Alves Neto
metadata.dc.contributor.advisor-co2:	Gustavo Medeiros Freitas
Primeiro membro da banca :	Paulo Lilles Jorge Drews Jr
Segundo membro da banca:	Marcos Ricardo Omena de Albuquerque Maximo
Terceiro membro da banca:	Luiz Chaimowicz
Quarto membro da banca:	Frederico Gualberto Ferreira Coelho
Resumo:	Esta tese aborda o desafio de projetar funções de recompensa eficazes para o treinamento de agentes utilizando aprendizado por reforço profundo (DRL) em tarefas orientadas a objetivos. O principal objetivo é acelerar o aprendizado, minimizar a ocorrência de ótimos locais, aumentar a eficiência e garantir que o agente se alinhe corretamente aos objetivos definidos. A pesquisa explora como as funções de recompensa podem contribuir para a melhoria da generalização das políticas, permitindo um desempenho robusto em cenários novos e não treinados. Um dos focos centrais da tese é a redução da lacuna entre simulação e realidade, facilitando a transferência de políticas aprendidas em ambientes simulados para aplicações reais complexas e dinâmicas, sem perda de desempenho ou necessidade de treinamento adicional. Como solução para o problema analisado, propõe-se uma função de recompensa com reward shaping baseada no princípio do Potential-Based Reward Shaping (PBRS), em que a recompensa é definida pela diferença entre funções potenciais. Demonstra-se que a inclusão do reward shaping proposto à função de recompensa não altera a otimalidade da política, assegurando que o agente aprenda o comportamento desejado com os benefícios da nova formulação de recompensa. A recompensa proposta, empregada no treinamento de agentes para a navegação autônoma de robôs sem mapas, apresenta desempenho superior em relação a outras funções de reward shaping da literatura baseadas na distância até o alvo. A comparação com funções de recompensa existentes indica uma aceleração na convergência do treinamento e um aumento no número de tarefas concluídas em um ambiente de teste após o treinamento. Além disso, o método proposto demonstrou robustez e obteve resultados superiores em relação a abordagens da literatura ao operar em ambientes distintos daqueles utilizados para o treinamento. Resultados similares foram observados na transferência zero-shot, tanto em sim-to-sim quanto em sim-to-real, superando métodos existentes mesmo quando transferido para robôs com arquiteturas diferentes das utilizadas no treinamento. Dessa forma, a abordagem inovadora apresentada para o uso de reward shaping na navegação de robôs visa aprimorar a generalização e sua aplicação em cenários desconhecidos, com resultados promissores tanto em simulação quanto em cenários reais.
Abstract:	This thesis addresses the challenge of designing effective reward functions for training agents using deep reinforcement learning (DRL) in goal-oriented tasks. The main objective is to accelerate learning, minimize the occurrence of local optima, increase efficiency, and ensure that the agent correctly aligns with the defined objectives. The study explores how reward functions contribute to improving policy generalization, enabling robust performance in new and untrained scenarios. A key focus of this research is reducing the gap between simulation and reality, facilitating the transfer of policies learned in constrained simulated environments to complex and dynamic real-world applications without performance loss or the need for additional training. As a solution to the explored problem, we propose a reward function with reward shaping based on the Potential-Based Reward Shaping (PBRS) principle, where the reward is defined by the difference between potential functions. We demonstrate that adding the proposed reward shaping to the reward function does not interfere with policy optimality, ensuring that the agent learns the desired behavior while benefiting from the new reward function. The proposed reward function, applied to training agents in mapless autonomous robot navigation, achieves superior performance compared to other reward shaping functions in the literature that rely on distance to the target. Comparisons with existing reward functions indicate accelerated training convergence and an increase in the number of tasks completed in a test environment after training. Furthermore, the proposed method demonstrates robustness and achieves superior results compared to others in the literature when operating in environments different from those used for training. Similar results were obtained in zero-shot transfer, both in sim-to-sim and sim-to-real scenarios, outperforming existing methods even when transferred to robots with architectures different from those used during training. Thus, this innovative approach to reward shaping in robot navigation enhances generalization and its application in unknown scenarios, with promising results in both simulation and real-world environments.
Assunto:	Engenharia elétrica Modelagem Navegação de robôs móveis
Idioma:	eng
País:	Brasil
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Departamento:	ENG - DEPARTAMENTO DE ENGENHARIA ELÉTRICA
Curso:	Programa de Pós-Graduação em Engenharia Elétrica
Tipo de Acesso:	Acesso Aberto
metadata.dc.rights.uri:	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI:	http://hdl.handle.net/1843/83684
Data do documento:	9-Mai-2025
Aparece nas coleções:	Teses de Doutorado

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Reward shaping for goal-oriented tasks using deep reinforcement learning.pdf		26.52 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons