Aprendizado por reforço para ajuste dinâmico de dificuldade em jogos de luta
Carregando...
Arquivos
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Reinforcement learning for dynamic difficulty adjustment in fighting games
Primeiro orientador
Membros da banca
Anderson Rocha Tavares
Lucas Nascimento Ferreira
Lucas Nascimento Ferreira
Resumo
Ajuste Dinâmico de Dificuldade (do inglês Dynamic Difficulty Adjustment - DDA) é uma técnica de automaticamente ajustar parâmetros de um jogo, como itens, mapas ou comportamento dos oponentes, com o intuito de prover ao jogador experiências desafiadoras e engajantes. O objetivo é manter o balanceamento e garantir um nível ótimo de entretenimento. Neste trabalho, investigamos o uso de aprendizado por reforço no ajuste dinâmico de dificuldade. Para isso, criamos um agente para um jogo de luta com objetivo de manter sua habilidade relativa equiparável com a do jogador. Durante a partida o agente altera sua proficiência para ser equivalente ao usuário. Para tal são controlados dois parâmetros distintos: Balanceamento e Competitividade. Balanceamento se refere à dificuldade percebida pelo jogador ao longo da interação com o sistema. Competitividade está relacionado ao resultado da tarefa. A fim de lidar com ambas as métricas, foi proposta uma função de recompensa que guia o agente a ter a habilidade relativa similar ao jogador e assim manter a partida balanceada. Além disso, uma penalidade atribuída durante o treino foi introduzida com objetivo de restringir a taxa de vitória do agente para o nível desejado. Dessa forma, gerando um oponente que não é tão fraco nem tão forte. Somado a isso, foram investigados formas de gerar um comportamento robusto capaz de generalização contra jogadores não vistos durante o treinamento. Técnicas de regularização são exploradas para aprimorar a desempenho do agente e sua adaptabilidade. Resultados apontam que a regularização possui efeitos positivos na generalização, entretanto não é suficiente para gerar um comportamento capaz de balancear o jogo para um conjunto com diversos jogadores. Assim, um esquema de treinamento utilizando Selfplay foi proposto para aprimorar ainda mais a capacidade de generalização do método, sem a necessidade de dados humanos ou de comportamentos previamente programados.
Abstract
Dynamic Difficulty Adjustment (DDA) is a technique that automatically adjusts game parameters, such as items, maps, or opponent behavior, to provide players with challenging and engaging experiences. The goal is to maintain balance and ensure an optimal level of entertainment. This work proposes a reinforcement learning agent for a fighting game to create an opponent whose skill level matches the player's relative ability. To achieve this, two distinct parameters are controlled: Balance and Competitiveness. Balance refers to the difficulty perceived by the player throughout the interaction with the system. Competitiveness is related to the outcome of the task. To address both metrics, a reward function was designed to guide the agent toward having a skill level comparable to the player, thus keeping the match balanced. Additionally, a penalty applied during training was introduced to limit the agent's win rate to the desired level, resulting in an opponent that is neither too weak nor too strong. Furthermore, methods to create robust behavior capable of generalizing against unseen players during training were investigated. Regularization techniques were explored to improve the agent's performance and adaptability. Results indicate that regularization has positive effects on generalization; however, it is insufficient to produce behavior capable of balancing against a diverse set of players. Consequently, a training scheme using self-play was proposed to further enhance the method's generalization capacity without requiring human data or pre-programmed behaviors.
Assunto
Computação - Teses, Jogos eletrônicos - Teses
Palavras-chave
Aprendizado por Reforço, Ajuste de Dificuldade Dinâmico, Treinamento Baseado em População, Generalização