Towards a Scale-Invariant Reinforcement Learning Model for Real-Time Strategy Games

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Dissertação de mestrado

Título alternativo

Rumo a um modelo de aprendizado por reforço invariante em escala para jogos de estratégia em tempo real

Primeiro orientador

Membros da banca

Erickson Rangel do Nascimento
Levi Henrique Santana de Lelis

Resumo

Real-time strategy (RTS) games present a unique challenge for autonomous agents due to the combination of several fundamental AI problems. While Deep Reinforcement Learning (DRL) has shown promise in the development of autonomous agents for the genre, exist- ing architectures often struggle with games featuring maps of varying dimensions. This limitation hinders the agent’s ability to generalize its learned strategies across different scenarios. This thesis proposes a novel approach that overcomes this problem by incorporat- ing Spatial Pyramid Pooling (SPP) within a DRL framework. We leverage the GridNet architecture’s encoder-decoder structure and integrate an SPP layer into the critic net- work of the Proximal Policy Optimization (PPO) algorithm. The SPP layer dynamically generates a standardized representation of the game state, regardless of the initial obser- vation size. This allows the agent to effectively adapt its decision-making process to any map configuration. Our evaluations indicate that the proposed method enhances the model’s flexibility and efficiency in training agents for various RTS game scenarios, albeit with some dis- cernible limitations when applied to very small maps. While additional experimentation is needed to consolidate these findings, this approach paves the way for more robust and adaptable AI agents capable of excelling in sequential decision problems with variable-size observations.

Abstract

Jogos de estratégia em tempo real (RTS) apresentam um desafio único para agentes autônomos devido à combinação de vários problemas fundamentais de IA. Embora o Aprendizado por Reforço Profundo (Deep Reinforcement Learning - DRL) tenha demon- strado potencial no desenvolvimento de agentes autônomos para o gênero, as arquiteturas existentes muitas vezes apresentam dificuldades para se adaptarem a jogos que contenham mapas de dimensões variadas. Essa limitação prejudica a capacidade do agente de gener- alizar suas estratégias aprendidas a diferentes cenários. Esta dissertação propõe uma abordagem inovadora que supera esse problema ao incorporar Spatial Pyramid Pooling (SPP) em um framework de DRL. Utilizamos a ar- quitetura encoder-decoder da rede GridNet e integramos a ela uma camada SPP na rede critic do algoritmo Proximal Policy Optimization (PPO). A camada SPP gera dinamica- mente uma representação padronizada do estado do jogo, independentemente do tamanho inicial da observação. Isso permite que o agente adapte seu processo de tomada de decisão a qualquer configuração de mapa. Nossas avaliações indicam que o método proposto melhora significativamente a flexibilidade e a eficiência do modelo no treinamento de agentes para diversos cenários de jogos RTS, embora com algumas limitações discerníveis quando aplicado a mapas muito pequenos. Embora sejam necessarios mais experimentos para consolidar essas descobertas, essa abordagem abre caminho para agentes de IA mais robustos e adaptáveis, capazes de se destacar em problemas de decisão sequencial com observações de tamanhos variáveis

Assunto

Computação – Teses, Aprendizado do computador – Teses, Aprendizado profundo – Teses, Jogos eletrônicos – Teses, Jogos de estratégia (Matemática) – Teses

Palavras-chave

Computer games, Real-time strategy, Reinforcement learning, Deep learning

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto