Procedural generation of Pixel Art character poses with generative adversarial networks

dc.creatorFlávio Roberto dos Santos Coutinho
dc.date.accessioned2026-02-23T17:29:27Z
dc.date.issued2025-11-17
dc.description.abstractO desenvolvimento de jogos envolve a criação de diferentes tipos de conteúdo, um processo iterativo e geralmente demorado. Em jogos bidimensionais, os personagens são tipicamente representados em muitos sprites, pois podem executar diversas ações, exigindo vários quadros por clipe de animação e desenhos em diferentes direções (e.g., frente, trás, esquerda, direita). Embora a maioria das tarefas envolvidas seja criativa e, portanto, bem apropriada aos artistas, algumas delas podem se tornar repetitivas e, portanto, se beneficiar de automação. A área de Geração Procedural de Conteúdo apresenta técnicas que podem auxiliar na criação de recursos em jogos, mas são poucas as que almejam a criação de conteúdo cosmético, como imagens e sons. No entanto, os pesquisadores têm abordado novos problemas da área ao se apropriar dos avanços recentes no campo de Aprendizado de Máquina relacionados aos modelos geradores. Esta tese aborda o desafio de gerar personagens em pixel art em diferentes lados (e.g., direito) a partir de imagens deles voltados para outros (e.g., frente). Enquadramos essa tarefa tanto como um problema de tradução de imagem para imagem, quanto como de imputação de dados ausentes, e propomos cinco modelos baseados em redes neurais geradoras adversárias para produzir imagens the personagens em diferentes poses. As imagens geradas variam em qualidade, de perceptualmente idênticas ao objetivo em um conjunto de dados feito por personagens modulares até pouco reconhecíveis quando usados em personagens muito diferentes da partição de treinamento. Também investigamos como o conhecimento específico de domínio do estilo pixel art pode ser integrado aos modelos, representando imagens como índices em uma paleta, adicionando perda por histograma e quantizando as imagens geradas, tanto em pós-processamento quanto de forma integrada. Este último método utiliza uma nova abordagem diferenciável que permite o treinamento de modelos geradores profundos de ponta a ponta para produzir imagens que aderem estritamente a uma paleta pretendida. Nossas principais contribuições incluem a proposição dos modelos geradores capazes de produzir personagens em diferentes poses, as modificações propostas para as arquiteturas base de redes neurais geradoras adversárias que produziram melhores resultados do que suas implementações originais e o conhecimento obtido pela investigação de diferentes hipóteses para melhorar a qualidade de geração de imagens em pixel art.
dc.identifier.urihttps://hdl.handle.net/1843/1711
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso aberto
dc.rightsAttribution 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectComputação - Teses
dc.subjectComputação gráfica - Teses
dc.subjectGeração de conteúdo procedural - Teses
dc.subject.otherProcedural content generation
dc.subject.otherGenerative adversarial networks
dc.subject.otherImage-to-image translation
dc.subject.otherMissing-data imputation
dc.subject.otherPixel art
dc.titleProcedural generation of Pixel Art character poses with generative adversarial networks
dc.title.alternativeGeração procedural de poses de personagens em Pixel Art com redes neurais geradoras adversárias
dc.typeTese de doutorado
local.contributor.advisor1Luiz Chaimowicz
local.contributor.advisor1IDhttps://orcid.org/0000-0001-8156-9941
local.contributor.advisor1IDhttps://www.webofscience.com/wos/author/record/AAQ-1386-2020
local.contributor.advisor1Latteshttps://lattes.cnpq.br/4499928813481251
local.contributor.referee1Maria Andréia Formico Rodrigues
local.contributor.referee1Esteban Walter Gonzalez Clua
local.contributor.referee1Flavio Vinicius Diniz de Figueiredo
local.contributor.referee1Erickson Rangel do Nascimento
local.creator.IDhttps://www.webofscience.com/wos/author/record/PCU-0415-2025
local.creator.Latteshttps://lattes.cnpq.br/6776076167224373
local.description.resumoGame development involves creating different types of assets, an iterative and frequently time-consuming process. In two-dimensional games, characters are typically represented in many sprites, as they might perform many actions, requiring several frames for each animation clip while facing different directions (e.g., front, back, left, and right). While most of the involved tasks are creative and, hence, best suited to artists, some of them might become repetitive and may benefit from automation. The Procedural Content Generation field presents many techniques that can assist in creating game assets, but only a few focus on cosmetic content, such as visuals and sounds. However, researchers have been approaching new problems by leveraging recent advancements in the Machine Learning field related to generative models. In this dissertation, we tackle the challenge of generating pixel art characters in different sides (e.g., right) given one or more images of them facing source ones (e.g., front). We approach this task as both an image-to-image translation and a missing data imputation problem and introduce five generative adversarial network models following different architectures to generate images of characters in different poses. The model-generated images have varying quality, ranging from near zero distance to the ground truth in a dataset composed of modularly assembled characters to barely recognizable images for characters that are too different to the ones seen during training on other datasets. We also investigate how domain-specific knowledge of the pixel art style can be integrated with the models. We evaluate representing images as indices in a palette, adding histogram loss term to the generator and quantizing the generated images to their palette both as a post-process step and inside the model. The latter uses a novel differentiable approach that allows training deep generative models end-to-end to produce images that strictly conform to an intended palette. Our main contributions include the proposition of the generative models, capable of producing characters in different poses, the modifications to base generative adversarial network architectures that yielded better results than the original implementations, and the insights obtained by investigating different hypotheses to improve the quality of the generated pixel art.
local.identifier.orcidhttps://orcid.org/0000-0001-8014-3906
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação
local.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
procedural-generation-of-pixel-art-character-poses-with-generative-adversarial-networks.pdf
Tamanho:
13.26 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Item-specific license agreed to upon submission
Descrição: