Reward shaping for goal-oriented tasks using deep reinforcement learning

dc.creatorVictor Ricardo Fernandes Miranda
dc.date.accessioned2025-07-21T15:18:47Z
dc.date.accessioned2025-09-09T00:23:03Z
dc.date.available2025-07-21T15:18:47Z
dc.date.issued2025-05-09
dc.description.abstractThis thesis addresses the challenge of designing effective reward functions for training agents using deep reinforcement learning (DRL) in goal-oriented tasks. The main objective is to accelerate learning, minimize the occurrence of local optima, increase efficiency, and ensure that the agent correctly aligns with the defined objectives. The study explores how reward functions contribute to improving policy generalization, enabling robust performance in new and untrained scenarios. A key focus of this research is reducing the gap between simulation and reality, facilitating the transfer of policies learned in constrained simulated environments to complex and dynamic real-world applications without performance loss or the need for additional training. As a solution to the explored problem, we propose a reward function with reward shaping based on the Potential-Based Reward Shaping (PBRS) principle, where the reward is defined by the difference between potential functions. We demonstrate that adding the proposed reward shaping to the reward function does not interfere with policy optimality, ensuring that the agent learns the desired behavior while benefiting from the new reward function. The proposed reward function, applied to training agents in mapless autonomous robot navigation, achieves superior performance compared to other reward shaping functions in the literature that rely on distance to the target. Comparisons with existing reward functions indicate accelerated training convergence and an increase in the number of tasks completed in a test environment after training. Furthermore, the proposed method demonstrates robustness and achieves superior results compared to others in the literature when operating in environments different from those used for training. Similar results were obtained in zero-shot transfer, both in sim-to-sim and sim-to-real scenarios, outperforming existing methods even when transferred to robots with architectures different from those used during training. Thus, this innovative approach to reward shaping in robot navigation enhances generalization and its application in unknown scenarios, with promising results in both simulation and real-world environments.
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.identifier.urihttps://hdl.handle.net/1843/83684
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/
dc.subjectEngenharia elétrica
dc.subjectModelagem
dc.subjectNavegação de robôs móveis
dc.subject.otherReward shaping
dc.subject.otherDeep reinforcement learning
dc.subject.otherModel generalization
dc.subject.otherUnknown cluttered environments
dc.subject.otherMapless robot navigation
dc.titleReward shaping for goal-oriented tasks using deep reinforcement learning
dc.typeTese de doutorado
local.contributor.advisor-co1Armando Alves Neto
local.contributor.advisor-co1Gustavo Medeiros Freitas
local.contributor.advisor1Leonardo Amaral Mozelli
local.contributor.advisor1Latteshttp://lattes.cnpq.br/7574811650429924
local.contributor.referee1Paulo Lilles Jorge Drews Jr
local.contributor.referee1Marcos Ricardo Omena de Albuquerque Maximo
local.contributor.referee1Luiz Chaimowicz
local.contributor.referee1Frederico Gualberto Ferreira Coelho
local.creator.Latteshttp://lattes.cnpq.br/3022523104750778
local.description.resumoEsta tese aborda o desafio de projetar funções de recompensa eficazes para o treinamento de agentes utilizando aprendizado por reforço profundo (DRL) em tarefas orientadas a objetivos. O principal objetivo é acelerar o aprendizado, minimizar a ocorrência de ótimos locais, aumentar a eficiência e garantir que o agente se alinhe corretamente aos objetivos definidos. A pesquisa explora como as funções de recompensa podem contribuir para a melhoria da generalização das políticas, permitindo um desempenho robusto em cenários novos e não treinados. Um dos focos centrais da tese é a redução da lacuna entre simulação e realidade, facilitando a transferência de políticas aprendidas em ambientes simulados para aplicações reais complexas e dinâmicas, sem perda de desempenho ou necessidade de treinamento adicional. Como solução para o problema analisado, propõe-se uma função de recompensa com reward shaping baseada no princípio do Potential-Based Reward Shaping (PBRS), em que a recompensa é definida pela diferença entre funções potenciais. Demonstra-se que a inclusão do reward shaping proposto à função de recompensa não altera a otimalidade da política, assegurando que o agente aprenda o comportamento desejado com os benefícios da nova formulação de recompensa. A recompensa proposta, empregada no treinamento de agentes para a navegação autônoma de robôs sem mapas, apresenta desempenho superior em relação a outras funções de reward shaping da literatura baseadas na distância até o alvo. A comparação com funções de recompensa existentes indica uma aceleração na convergência do treinamento e um aumento no número de tarefas concluídas em um ambiente de teste após o treinamento. Além disso, o método proposto demonstrou robustez e obteve resultados superiores em relação a abordagens da literatura ao operar em ambientes distintos daqueles utilizados para o treinamento. Resultados similares foram observados na transferência zero-shot, tanto em sim-to-sim quanto em sim-to-real, superando métodos existentes mesmo quando transferido para robôs com arquiteturas diferentes das utilizadas no treinamento. Dessa forma, a abordagem inovadora apresentada para o uso de reward shaping na navegação de robôs visa aprimorar a generalização e sua aplicação em cenários desconhecidos, com resultados promissores tanto em simulação quanto em cenários reais.
local.identifier.orcidhttps://orcid.org/0000-0001-9653-6050
local.publisher.countryBrasil
local.publisher.departmentENG - DEPARTAMENTO DE ENGENHARIA ELÉTRICA
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Engenharia Elétrica

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Reward shaping for goal-oriented tasks using deep reinforcement learning.pdf
Tamanho:
25.9 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: