Procedural generation of Pixel Art character poses with generative adversarial networks

Flávio Roberto dos Santos Coutinho

Procedural generation of Pixel Art character poses with generative adversarial networks

dc.creator	Flávio Roberto dos Santos Coutinho
dc.date.accessioned	2026-02-23T17:29:27Z
dc.date.issued	2025-11-17
dc.description.abstract	O desenvolvimento de jogos envolve a criação de diferentes tipos de conteúdo, um processo iterativo e geralmente demorado. Em jogos bidimensionais, os personagens são tipicamente representados em muitos sprites, pois podem executar diversas ações, exigindo vários quadros por clipe de animação e desenhos em diferentes direções (e.g., frente, trás, esquerda, direita). Embora a maioria das tarefas envolvidas seja criativa e, portanto, bem apropriada aos artistas, algumas delas podem se tornar repetitivas e, portanto, se beneficiar de automação. A área de Geração Procedural de Conteúdo apresenta técnicas que podem auxiliar na criação de recursos em jogos, mas são poucas as que almejam a criação de conteúdo cosmético, como imagens e sons. No entanto, os pesquisadores têm abordado novos problemas da área ao se apropriar dos avanços recentes no campo de Aprendizado de Máquina relacionados aos modelos geradores. Esta tese aborda o desafio de gerar personagens em pixel art em diferentes lados (e.g., direito) a partir de imagens deles voltados para outros (e.g., frente). Enquadramos essa tarefa tanto como um problema de tradução de imagem para imagem, quanto como de imputação de dados ausentes, e propomos cinco modelos baseados em redes neurais geradoras adversárias para produzir imagens the personagens em diferentes poses. As imagens geradas variam em qualidade, de perceptualmente idênticas ao objetivo em um conjunto de dados feito por personagens modulares até pouco reconhecíveis quando usados em personagens muito diferentes da partição de treinamento. Também investigamos como o conhecimento específico de domínio do estilo pixel art pode ser integrado aos modelos, representando imagens como índices em uma paleta, adicionando perda por histograma e quantizando as imagens geradas, tanto em pós-processamento quanto de forma integrada. Este último método utiliza uma nova abordagem diferenciável que permite o treinamento de modelos geradores profundos de ponta a ponta para produzir imagens que aderem estritamente a uma paleta pretendida. Nossas principais contribuições incluem a proposição dos modelos geradores capazes de produzir personagens em diferentes poses, as modificações propostas para as arquiteturas base de redes neurais geradoras adversárias que produziram melhores resultados do que suas implementações originais e o conhecimento obtido pela investigação de diferentes hipóteses para melhorar a qualidade de geração de imagens em pixel art.
dc.identifier.uri	https://hdl.handle.net/1843/1711
dc.language	eng
dc.publisher	Universidade Federal de Minas Gerais
dc.rights	Acesso aberto
dc.rights	Attribution 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/
dc.subject	Computação - Teses
dc.subject	Computação gráfica - Teses
dc.subject	Geração de conteúdo procedural - Teses
dc.subject.other	Procedural content generation
dc.subject.other	Generative adversarial networks
dc.subject.other	Image-to-image translation
dc.subject.other	Missing-data imputation
dc.subject.other	Pixel art
dc.title	Procedural generation of Pixel Art character poses with generative adversarial networks
dc.title.alternative	Geração procedural de poses de personagens em Pixel Art com redes neurais geradoras adversárias
dc.type	Tese de doutorado
local.contributor.advisor1	Luiz Chaimowicz
local.contributor.advisor1ID	https://orcid.org/0000-0001-8156-9941
local.contributor.advisor1ID	https://www.webofscience.com/wos/author/record/AAQ-1386-2020
local.contributor.advisor1Lattes	https://lattes.cnpq.br/4499928813481251
local.contributor.referee1	Maria Andréia Formico Rodrigues
local.contributor.referee1	Esteban Walter Gonzalez Clua
local.contributor.referee1	Flavio Vinicius Diniz de Figueiredo
local.contributor.referee1	Erickson Rangel do Nascimento
local.creator.ID	https://www.webofscience.com/wos/author/record/PCU-0415-2025
local.creator.Lattes	https://lattes.cnpq.br/6776076167224373
local.description.resumo	Game development involves creating different types of assets, an iterative and frequently time-consuming process. In two-dimensional games, characters are typically represented in many sprites, as they might perform many actions, requiring several frames for each animation clip while facing different directions (e.g., front, back, left, and right). While most of the involved tasks are creative and, hence, best suited to artists, some of them might become repetitive and may benefit from automation. The Procedural Content Generation field presents many techniques that can assist in creating game assets, but only a few focus on cosmetic content, such as visuals and sounds. However, researchers have been approaching new problems by leveraging recent advancements in the Machine Learning field related to generative models. In this dissertation, we tackle the challenge of generating pixel art characters in different sides (e.g., right) given one or more images of them facing source ones (e.g., front). We approach this task as both an image-to-image translation and a missing data imputation problem and introduce five generative adversarial network models following different architectures to generate images of characters in different poses. The model-generated images have varying quality, ranging from near zero distance to the ground truth in a dataset composed of modularly assembled characters to barely recognizable images for characters that are too different to the ones seen during training on other datasets. We also investigate how domain-specific knowledge of the pixel art style can be integrated with the models. We evaluate representing images as indices in a palette, adding histogram loss term to the generator and quantizing the generated images to their palette both as a post-process step and inside the model. The latter uses a novel differentiable approach that allows training deep generative models end-to-end to produce images that strictly conform to an intended palette. Our main contributions include the proposition of the generative models, capable of producing characters in different poses, the modifications to base generative adversarial network architectures that yielded better results than the original implementations, and the insights obtained by investigating different hypotheses to improve the quality of the generated pixel art.
local.identifier.orcid	https://orcid.org/0000-0001-8014-3906
local.publisher.country	Brasil
local.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initials	UFMG
local.publisher.program	Programa de Pós-Graduação em Ciência da Computação
local.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: procedural-generation-of-pixel-art-character-poses-with-generative-adversarial-networks.pdf
Tamanho:: 13.26 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Item-specific license agreed to upon submission
Descrição:

Baixar

Coleções

Pós-Graduação em Ciência da Computação - Teses