Procedural generation of Pixel Art character poses with generative adversarial networks

Flávio Roberto dos Santos Coutinho

Procedural generation of Pixel Art character poses with generative adversarial networks

Arquivos

procedural-generation-of-pixel-art-character-poses-with-generative-adversarial-networks.pdf (13.26 MB)

Data

2025-11-17

Autor(es)

Flávio Roberto dos Santos Coutinho

Editor

Universidade Federal de Minas Gerais

Tipo

Tese de doutorado

Título alternativo

Geração procedural de poses de personagens em Pixel Art com redes neurais geradoras adversárias

Primeiro orientador

Luiz Chaimowicz

Membros da banca

Maria Andréia Formico Rodrigues
Esteban Walter Gonzalez Clua
Flavio Vinicius Diniz de Figueiredo
Erickson Rangel do Nascimento

Resumo

Game development involves creating different types of assets, an iterative and frequently time-consuming process. In two-dimensional games, characters are typically represented in many sprites, as they might perform many actions, requiring several frames for each animation clip while facing different directions (e.g., front, back, left, and right). While most of the involved tasks are creative and, hence, best suited to artists, some of them might become repetitive and may benefit from automation. The Procedural Content Generation field presents many techniques that can assist in creating game assets, but only a few focus on cosmetic content, such as visuals and sounds. However, researchers have been approaching new problems by leveraging recent advancements in the Machine Learning field related to generative models. In this dissertation, we tackle the challenge of generating pixel art characters in different sides (e.g., right) given one or more images of them facing source ones (e.g., front). We approach this task as both an image-to-image translation and a missing data imputation problem and introduce five generative adversarial network models following different architectures to generate images of characters in different poses. The model-generated images have varying quality, ranging from near zero distance to the ground truth in a dataset composed of modularly assembled characters to barely recognizable images for characters that are too different to the ones seen during training on other datasets. We also investigate how domain-specific knowledge of the pixel art style can be integrated with the models. We evaluate representing images as indices in a palette, adding histogram loss term to the generator and quantizing the generated images to their palette both as a post-process step and inside the model. The latter uses a novel differentiable approach that allows training deep generative models end-to-end to produce images that strictly conform to an intended palette. Our main contributions include the proposition of the generative models, capable of producing characters in different poses, the modifications to base generative adversarial network architectures that yielded better results than the original implementations, and the insights obtained by investigating different hypotheses to improve the quality of the generated pixel art.

Abstract

O desenvolvimento de jogos envolve a criação de diferentes tipos de conteúdo, um processo iterativo e geralmente demorado. Em jogos bidimensionais, os personagens são tipicamente representados em muitos sprites, pois podem executar diversas ações, exigindo vários quadros por clipe de animação e desenhos em diferentes direções (e.g., frente, trás, esquerda, direita). Embora a maioria das tarefas envolvidas seja criativa e, portanto, bem apropriada aos artistas, algumas delas podem se tornar repetitivas e, portanto, se beneficiar de automação. A área de Geração Procedural de Conteúdo apresenta técnicas que podem auxiliar na criação de recursos em jogos, mas são poucas as que almejam a criação de conteúdo cosmético, como imagens e sons. No entanto, os pesquisadores têm abordado novos problemas da área ao se apropriar dos avanços recentes no campo de Aprendizado de Máquina relacionados aos modelos geradores. Esta tese aborda o desafio de gerar personagens em pixel art em diferentes lados (e.g., direito) a partir de imagens deles voltados para outros (e.g., frente). Enquadramos essa tarefa tanto como um problema de tradução de imagem para imagem, quanto como de imputação de dados ausentes, e propomos cinco modelos baseados em redes neurais geradoras adversárias para produzir imagens the personagens em diferentes poses. As imagens geradas variam em qualidade, de perceptualmente idênticas ao objetivo em um conjunto de dados feito por personagens modulares até pouco reconhecíveis quando usados em personagens muito diferentes da partição de treinamento. Também investigamos como o conhecimento específico de domínio do estilo pixel art pode ser integrado aos modelos, representando imagens como índices em uma paleta, adicionando perda por histograma e quantizando as imagens geradas, tanto em pós-processamento quanto de forma integrada. Este último método utiliza uma nova abordagem diferenciável que permite o treinamento de modelos geradores profundos de ponta a ponta para produzir imagens que aderem estritamente a uma paleta pretendida. Nossas principais contribuições incluem a proposição dos modelos geradores capazes de produzir personagens em diferentes poses, as modificações propostas para as arquiteturas base de redes neurais geradoras adversárias que produziram melhores resultados do que suas implementações originais e o conhecimento obtido pela investigação de diferentes hipóteses para melhorar a qualidade de geração de imagens em pixel art.

Assunto

Computação - Teses, Computação gráfica - Teses, Geração de conteúdo procedural - Teses

Palavras-chave

Procedural content generation, Generative adversarial networks, Image-to-image translation, Missing-data imputation, Pixel art

URI

https://hdl.handle.net/1843/1711

Departamento

ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO

Curso

Programa de Pós-Graduação em Ciência da Computação

Coleções

Pós-Graduação em Ciência da Computação - Teses

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso aberto

Página do item completo

Procedural generation of Pixel Art character poses with generative adversarial networks

Arquivos

Data

Autor(es)

Título da Revista

ISSN da Revista

Título de Volume

Editor

Descrição

Tipo

Título alternativo

Primeiro orientador

Membros da banca

Resumo

Abstract

Assunto

Palavras-chave

Citação

URI

Departamento

Curso

Endereço externo

Coleções

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons