Transferring human motion and appearance in monocular videos

Thiago Luange Gomes

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/40041

Type:	Tese
Title:	Transferring human motion and appearance in monocular videos
Other Titles:	Transferência de movimento e aparência humana entre vídeos monoculares
Authors:	Thiago Luange Gomes
First Advisor:	Erickson Rangel do Nascimento
First Co-advisor:	Renato José Martins
First Referee:	Mário Fernando Montenegro Campos
Second Referee:	Manuel Menezes de Oliveira Neto
Third Referee:	Anderson de Rezende Rocha
metadata.dc.contributor.referee4:	William Robson Schwartz
Abstract:	This dissertation is in the context of transferring human motion and appearance from video to video preserving motion features, body shape, and visual quality. In other words, given two input videos, we investigate how to synthesize a new video, where a target person from the first video is placed into a new context performing different motions from the second video. Possible application domain are movies and advertisements that rely on synthetic characters and virtual environments to create visual content. We introduce two novel methods for transferring appearance and retargeting human motion from monocular videos, and by consequence, increase the creative possibilities of visual content. Differently from recent appearance transferring methods, our approaches take into account 3D shape, appearance, and motion constraints. Specifically, our first method is based on a hybrid image-based rendering technique that exhibits competitive visual retargeting quality compared to state-of-the-art neural rendering approaches, even without computationally intensive training. Taking advantages of both differentiable rendering and the 3D parametric model, our second data-driven method produces a fully 3D controllable human model, i.e., the user can control the human pose and rendering parameters. Experiments on different videos show that our methods preserve specific features of the motion that must be maintained (e.g., feet touching the floor, hands touching a particular object) while holding the best values for appearance in terms of Structural Similarity (SSIM), Learned Perceptual Image Patch Similarity (LPIPS), Mean Squared Error (MSE), and Fréchet Video Distance (FVD). We also provide to the community a new dataset composed of several annotated videos with motion constraints for retargeting applications and paired motion sequences from different characters to evaluate transferring approaches.
Abstract:	Esta tese está no contexto de transferência de movimento e aparência humana entre vídeos monoculares com preservação de características do movimento, forma do corpo e qualidade visual. Em outras palavras, dados dois vídeos de entrada, esta tese investiga como sintetizar um novo vídeo, onde a pessoa do primeiro vídeo é colocada no contexto do segundo vídeo realizando os movimentos da pessoa do segundo vídeo. Possíveis domínios de aplicação são filmes e anúncios que contam com personagens sintéticos e ambientes virtuais para criar conteúdo visual. Este trabalho introduz dois novos métodos para transferir aparência e movimento humano entre vídeos monoculares e por consequência aumentar as possibilidades criativas de conteúdo visual. Ao contrário dos recentes métodos de transferência baseados em aprendizado, nossas abordagens levam em conta restrições de forma, aparência e movimento tridimensional. Especificamente, o primeiro método usa uma nova técnica de renderização baseada em imagens que apresenta resultados comparáveis com as técnicas mais modernas, com a vantagem de não demandar um custoso processo de treinamento. O segundo método faz uso de técnicas de renderização diferencial e modelos paramétricos para produzir um modelo 3D completamente controlável, ou seja, um modelo onde o usuário pode controlar a pose humana e os parâmetros de renderização. Experimentos em diferentes vídeos mostram que nossos métodos preservam características específicas do movimento que devem ser mantidas (por exemplo, pés tocando o chão e mãos tocando um objeto) enquanto mantém os melhores valores para aparência em termos de Similaridade Estrutural (SSIM), Learned Perceptual Image Patch Similarity (LPIPS), Erro Quadrático Médio (EQM) e Fréchet Video Distance (FVD). Além disso, como resultado adicional, esta tese apresenta uma base de dados composta de vídeos com anotações das restrições do movimento e movimento pareados para avaliar a transferência de movimento.
Subject:	Computação - Teses Visão por computador - Teses Computação gráfica - Teses Processamento de vídeos - Teses Corpo humano e tecnologia em movimento - Teses
language:	eng
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	ICEX - INSTITUTO DE CIÊNCIAS EXATAS
metadata.dc.publisher.program:	Programa de Pós-Graduação em Ciência da Computação
Rights:	Acesso Aberto
metadata.dc.rights.uri:	http://creativecommons.org/licenses/by/3.0/pt/
URI:	http://hdl.handle.net/1843/40041
Issue Date:	6-Aug-2021
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
Thesis_Thiago_final.pdf		13.69 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License