Towards a Scale-Invariant Reinforcement Learning Model for Real-Time Strategy Games

Marcelo Luiz Harry Diniz Lemos

Towards a Scale-Invariant Reinforcement Learning Model for Real-Time Strategy Games

dc.creator	Marcelo Luiz Harry Diniz Lemos
dc.date.accessioned	2025-04-29T16:26:28Z
dc.date.accessioned	2025-09-08T23:55:28Z
dc.date.available	2025-04-29T16:26:28Z
dc.date.issued	2024-08-29
dc.description.abstract	Jogos de estratégia em tempo real (RTS) apresentam um desafio único para agentes autônomos devido à combinação de vários problemas fundamentais de IA. Embora o Aprendizado por Reforço Profundo (Deep Reinforcement Learning - DRL) tenha demon- strado potencial no desenvolvimento de agentes autônomos para o gênero, as arquiteturas existentes muitas vezes apresentam dificuldades para se adaptarem a jogos que contenham mapas de dimensões variadas. Essa limitação prejudica a capacidade do agente de gener- alizar suas estratégias aprendidas a diferentes cenários. Esta dissertação propõe uma abordagem inovadora que supera esse problema ao incorporar Spatial Pyramid Pooling (SPP) em um framework de DRL. Utilizamos a ar- quitetura encoder-decoder da rede GridNet e integramos a ela uma camada SPP na rede critic do algoritmo Proximal Policy Optimization (PPO). A camada SPP gera dinamica- mente uma representação padronizada do estado do jogo, independentemente do tamanho inicial da observação. Isso permite que o agente adapte seu processo de tomada de decisão a qualquer configuração de mapa. Nossas avaliações indicam que o método proposto melhora significativamente a flexibilidade e a eficiência do modelo no treinamento de agentes para diversos cenários de jogos RTS, embora com algumas limitações discerníveis quando aplicado a mapas muito pequenos. Embora sejam necessarios mais experimentos para consolidar essas descobertas, essa abordagem abre caminho para agentes de IA mais robustos e adaptáveis, capazes de se destacar em problemas de decisão sequencial com observações de tamanhos variáveis
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.description.sponsorship	FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.identifier.uri	https://hdl.handle.net/1843/81962
dc.language	eng
dc.publisher	Universidade Federal de Minas Gerais
dc.rights	Acesso Aberto
dc.rights.uri	http://creativecommons.org/licenses/by-sa/3.0/pt/
dc.subject	Computação – Teses
dc.subject	Aprendizado do computador – Teses
dc.subject	Aprendizado profundo – Teses
dc.subject	Jogos eletrônicos – Teses
dc.subject	Jogos de estratégia (Matemática) – Teses
dc.subject.other	Computer games
dc.subject.other	Real-time strategy
dc.subject.other	Reinforcement learning
dc.subject.other	Deep learning
dc.title	Towards a Scale-Invariant Reinforcement Learning Model for Real-Time Strategy Games
dc.title.alternative	Rumo a um modelo de aprendizado por reforço invariante em escala para jogos de estratégia em tempo real
dc.type	Dissertação de mestrado
local.contributor.advisor-co1	Anderson Rocha Tavares
local.contributor.advisor-co1	Leandro Soriano Marcolino
local.contributor.advisor1	Luiz Chaimowicz
local.contributor.advisor1Lattes	http://lattes.cnpq.br/4499928813481251
local.contributor.referee1	Erickson Rangel do Nascimento
local.contributor.referee1	Levi Henrique Santana de Lelis
local.creator.Lattes	https://lattes.cnpq.br/6887495644441709
local.description.resumo	Real-time strategy (RTS) games present a unique challenge for autonomous agents due to the combination of several fundamental AI problems. While Deep Reinforcement Learning (DRL) has shown promise in the development of autonomous agents for the genre, exist- ing architectures often struggle with games featuring maps of varying dimensions. This limitation hinders the agent’s ability to generalize its learned strategies across different scenarios. This thesis proposes a novel approach that overcomes this problem by incorporat- ing Spatial Pyramid Pooling (SPP) within a DRL framework. We leverage the GridNet architecture’s encoder-decoder structure and integrate an SPP layer into the critic net- work of the Proximal Policy Optimization (PPO) algorithm. The SPP layer dynamically generates a standardized representation of the game state, regardless of the initial obser- vation size. This allows the agent to effectively adapt its decision-making process to any map configuration. Our evaluations indicate that the proposed method enhances the model’s flexibility and efficiency in training agents for various RTS game scenarios, albeit with some dis- cernible limitations when applied to very small maps. While additional experimentation is needed to consolidate these findings, this approach paves the way for more robust and adaptable AI agents capable of excelling in sequential decision problems with variable-size observations.
local.publisher.country	Brasil
local.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initials	UFMG
local.publisher.program	Programa de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: dissertacao_marcelo_lemos.pdf
Tamanho:: 4.14 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Plain Text
Descrição:

Baixar

Coleções

Pós-Graduação em Ciência da Computação - Dissertações