Towards a Scale-Invariant Reinforcement Learning Model for Real-Time Strategy Games
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Rumo a um modelo de aprendizado por reforço invariante em escala para jogos de estratégia em tempo real
Primeiro orientador
Membros da banca
Erickson Rangel do Nascimento
Levi Henrique Santana de Lelis
Levi Henrique Santana de Lelis
Resumo
Real-time strategy (RTS) games present a unique challenge for autonomous agents due to
the combination of several fundamental AI problems. While Deep Reinforcement Learning
(DRL) has shown promise in the development of autonomous agents for the genre, exist-
ing architectures often struggle with games featuring maps of varying dimensions. This
limitation hinders the agent’s ability to generalize its learned strategies across different
scenarios.
This thesis proposes a novel approach that overcomes this problem by incorporat-
ing Spatial Pyramid Pooling (SPP) within a DRL framework. We leverage the GridNet
architecture’s encoder-decoder structure and integrate an SPP layer into the critic net-
work of the Proximal Policy Optimization (PPO) algorithm. The SPP layer dynamically
generates a standardized representation of the game state, regardless of the initial obser-
vation size. This allows the agent to effectively adapt its decision-making process to any
map configuration.
Our evaluations indicate that the proposed method enhances the model’s flexibility
and efficiency in training agents for various RTS game scenarios, albeit with some dis-
cernible limitations when applied to very small maps. While additional experimentation
is needed to consolidate these findings, this approach paves the way for more robust and
adaptable AI agents capable of excelling in sequential decision problems with variable-size
observations.
Abstract
Jogos de estratégia em tempo real (RTS) apresentam um desafio único para agentes
autônomos devido à combinação de vários problemas fundamentais de IA. Embora o
Aprendizado por Reforço Profundo (Deep Reinforcement Learning - DRL) tenha demon-
strado potencial no desenvolvimento de agentes autônomos para o gênero, as arquiteturas
existentes muitas vezes apresentam dificuldades para se adaptarem a jogos que contenham
mapas de dimensões variadas. Essa limitação prejudica a capacidade do agente de gener-
alizar suas estratégias aprendidas a diferentes cenários.
Esta dissertação propõe uma abordagem inovadora que supera esse problema ao
incorporar Spatial Pyramid Pooling (SPP) em um framework de DRL. Utilizamos a ar-
quitetura encoder-decoder da rede GridNet e integramos a ela uma camada SPP na rede
critic do algoritmo Proximal Policy Optimization (PPO). A camada SPP gera dinamica-
mente uma representação padronizada do estado do jogo, independentemente do tamanho
inicial da observação. Isso permite que o agente adapte seu processo de tomada de decisão
a qualquer configuração de mapa.
Nossas avaliações indicam que o método proposto melhora significativamente a
flexibilidade e a eficiência do modelo no treinamento de agentes para diversos cenários de
jogos RTS, embora com algumas limitações discerníveis quando aplicado a mapas muito
pequenos. Embora sejam necessarios mais experimentos para consolidar essas descobertas,
essa abordagem abre caminho para agentes de IA mais robustos e adaptáveis, capazes de
se destacar em problemas de decisão sequencial com observações de tamanhos variáveis
Assunto
Computação – Teses, Aprendizado do computador – Teses, Aprendizado profundo – Teses, Jogos eletrônicos – Teses, Jogos de estratégia (Matemática) – Teses
Palavras-chave
Computer games, Real-time strategy, Reinforcement learning, Deep learning
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
