Towards a Scale-Invariant Reinforcement Learning Model for Real-Time Strategy Games

dc.creatorMarcelo Luiz Harry Diniz Lemos
dc.date.accessioned2025-04-29T16:26:28Z
dc.date.accessioned2025-09-08T23:55:28Z
dc.date.available2025-04-29T16:26:28Z
dc.date.issued2024-08-29
dc.description.abstractJogos de estratégia em tempo real (RTS) apresentam um desafio único para agentes autônomos devido à combinação de vários problemas fundamentais de IA. Embora o Aprendizado por Reforço Profundo (Deep Reinforcement Learning - DRL) tenha demon- strado potencial no desenvolvimento de agentes autônomos para o gênero, as arquiteturas existentes muitas vezes apresentam dificuldades para se adaptarem a jogos que contenham mapas de dimensões variadas. Essa limitação prejudica a capacidade do agente de gener- alizar suas estratégias aprendidas a diferentes cenários. Esta dissertação propõe uma abordagem inovadora que supera esse problema ao incorporar Spatial Pyramid Pooling (SPP) em um framework de DRL. Utilizamos a ar- quitetura encoder-decoder da rede GridNet e integramos a ela uma camada SPP na rede critic do algoritmo Proximal Policy Optimization (PPO). A camada SPP gera dinamica- mente uma representação padronizada do estado do jogo, independentemente do tamanho inicial da observação. Isso permite que o agente adapte seu processo de tomada de decisão a qualquer configuração de mapa. Nossas avaliações indicam que o método proposto melhora significativamente a flexibilidade e a eficiência do modelo no treinamento de agentes para diversos cenários de jogos RTS, embora com algumas limitações discerníveis quando aplicado a mapas muito pequenos. Embora sejam necessarios mais experimentos para consolidar essas descobertas, essa abordagem abre caminho para agentes de IA mais robustos e adaptáveis, capazes de se destacar em problemas de decisão sequencial com observações de tamanhos variáveis
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.description.sponsorshipFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.identifier.urihttps://hdl.handle.net/1843/81962
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-sa/3.0/pt/
dc.subjectComputação – Teses
dc.subjectAprendizado do computador – Teses
dc.subjectAprendizado profundo – Teses
dc.subjectJogos eletrônicos – Teses
dc.subjectJogos de estratégia (Matemática) – Teses
dc.subject.otherComputer games
dc.subject.otherReal-time strategy
dc.subject.otherReinforcement learning
dc.subject.otherDeep learning
dc.titleTowards a Scale-Invariant Reinforcement Learning Model for Real-Time Strategy Games
dc.title.alternativeRumo a um modelo de aprendizado por reforço invariante em escala para jogos de estratégia em tempo real
dc.typeDissertação de mestrado
local.contributor.advisor-co1Anderson Rocha Tavares
local.contributor.advisor-co1Leandro Soriano Marcolino
local.contributor.advisor1Luiz Chaimowicz
local.contributor.advisor1Latteshttp://lattes.cnpq.br/4499928813481251
local.contributor.referee1Erickson Rangel do Nascimento
local.contributor.referee1Levi Henrique Santana de Lelis
local.creator.Latteshttps://lattes.cnpq.br/6887495644441709
local.description.resumoReal-time strategy (RTS) games present a unique challenge for autonomous agents due to the combination of several fundamental AI problems. While Deep Reinforcement Learning (DRL) has shown promise in the development of autonomous agents for the genre, exist- ing architectures often struggle with games featuring maps of varying dimensions. This limitation hinders the agent’s ability to generalize its learned strategies across different scenarios. This thesis proposes a novel approach that overcomes this problem by incorporat- ing Spatial Pyramid Pooling (SPP) within a DRL framework. We leverage the GridNet architecture’s encoder-decoder structure and integrate an SPP layer into the critic net- work of the Proximal Policy Optimization (PPO) algorithm. The SPP layer dynamically generates a standardized representation of the game state, regardless of the initial obser- vation size. This allows the agent to effectively adapt its decision-making process to any map configuration. Our evaluations indicate that the proposed method enhances the model’s flexibility and efficiency in training agents for various RTS game scenarios, albeit with some dis- cernible limitations when applied to very small maps. While additional experimentation is needed to consolidate these findings, this approach paves the way for more robust and adaptable AI agents capable of excelling in sequential decision problems with variable-size observations.
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
dissertacao_marcelo_lemos.pdf
Tamanho:
4.14 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: