Transferring human motion and appearance in monocular videos

Thiago Luange Gomes

Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/40041

Tipo:	Tese
Título:	Transferring human motion and appearance in monocular videos
Título(s) alternativo(s):	Transferência de movimento e aparência humana entre vídeos monoculares
Autor(es):	Thiago Luange Gomes
primer Tutor:	Erickson Rangel do Nascimento
primer Co-tutor:	Renato José Martins
primer miembro del tribunal :	Mário Fernando Montenegro Campos
Segundo miembro del tribunal:	Manuel Menezes de Oliveira Neto
Tercer miembro del tribunal:	Anderson de Rezende Rocha
Cuarto miembro del tribunal:	William Robson Schwartz
Resumen:	This dissertation is in the context of transferring human motion and appearance from video to video preserving motion features, body shape, and visual quality. In other words, given two input videos, we investigate how to synthesize a new video, where a target person from the first video is placed into a new context performing different motions from the second video. Possible application domain are movies and advertisements that rely on synthetic characters and virtual environments to create visual content. We introduce two novel methods for transferring appearance and retargeting human motion from monocular videos, and by consequence, increase the creative possibilities of visual content. Differently from recent appearance transferring methods, our approaches take into account 3D shape, appearance, and motion constraints. Specifically, our first method is based on a hybrid image-based rendering technique that exhibits competitive visual retargeting quality compared to state-of-the-art neural rendering approaches, even without computationally intensive training. Taking advantages of both differentiable rendering and the 3D parametric model, our second data-driven method produces a fully 3D controllable human model, i.e., the user can control the human pose and rendering parameters. Experiments on different videos show that our methods preserve specific features of the motion that must be maintained (e.g., feet touching the floor, hands touching a particular object) while holding the best values for appearance in terms of Structural Similarity (SSIM), Learned Perceptual Image Patch Similarity (LPIPS), Mean Squared Error (MSE), and Fréchet Video Distance (FVD). We also provide to the community a new dataset composed of several annotated videos with motion constraints for retargeting applications and paired motion sequences from different characters to evaluate transferring approaches.
Abstract:	Esta tese está no contexto de transferência de movimento e aparência humana entre vídeos monoculares com preservação de características do movimento, forma do corpo e qualidade visual. Em outras palavras, dados dois vídeos de entrada, esta tese investiga como sintetizar um novo vídeo, onde a pessoa do primeiro vídeo é colocada no contexto do segundo vídeo realizando os movimentos da pessoa do segundo vídeo. Possíveis domínios de aplicação são filmes e anúncios que contam com personagens sintéticos e ambientes virtuais para criar conteúdo visual. Este trabalho introduz dois novos métodos para transferir aparência e movimento humano entre vídeos monoculares e por consequência aumentar as possibilidades criativas de conteúdo visual. Ao contrário dos recentes métodos de transferência baseados em aprendizado, nossas abordagens levam em conta restrições de forma, aparência e movimento tridimensional. Especificamente, o primeiro método usa uma nova técnica de renderização baseada em imagens que apresenta resultados comparáveis com as técnicas mais modernas, com a vantagem de não demandar um custoso processo de treinamento. O segundo método faz uso de técnicas de renderização diferencial e modelos paramétricos para produzir um modelo 3D completamente controlável, ou seja, um modelo onde o usuário pode controlar a pose humana e os parâmetros de renderização. Experimentos em diferentes vídeos mostram que nossos métodos preservam características específicas do movimento que devem ser mantidas (por exemplo, pés tocando o chão e mãos tocando um objeto) enquanto mantém os melhores valores para aparência em termos de Similaridade Estrutural (SSIM), Learned Perceptual Image Patch Similarity (LPIPS), Erro Quadrático Médio (EQM) e Fréchet Video Distance (FVD). Além disso, como resultado adicional, esta tese apresenta uma base de dados composta de vídeos com anotações das restrições do movimento e movimento pareados para avaliar a transferência de movimento.
Asunto:	Computação - Teses Visão por computador - Teses Computação gráfica - Teses Processamento de vídeos - Teses Corpo humano e tecnologia em movimento - Teses
Idioma:	eng
País:	Brasil
Editor:	Universidade Federal de Minas Gerais
Sigla da Institución:	UFMG
Departamento:	ICEX - INSTITUTO DE CIÊNCIAS EXATAS
Curso:	Programa de Pós-Graduação em Ciência da Computação
Tipo de acceso:	Acesso Aberto
metadata.dc.rights.uri:	http://creativecommons.org/licenses/by/3.0/pt/
URI:	http://hdl.handle.net/1843/40041
Fecha del documento:	6-ago-2021
Aparece en las colecciones:	Teses de Doutorado

archivos asociados a este elemento:

archivo	Descripción	Tamaño	Formato
Thesis_Thiago_final.pdf		13.69 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo del elemento Visualizar estadísticas

Este elemento está licenciado bajo una Licencia Creative Commons