Transferring human motion and appearance in monocular videos

Thiago Luange Gomes

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/40041

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Erickson Rangel do Nascimento	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6900352659470721	pt_BR
dc.contributor.advisor-co1	Renato José Martins	pt_BR
dc.contributor.referee1	Mário Fernando Montenegro Campos	pt_BR
dc.contributor.referee2	Manuel Menezes de Oliveira Neto	pt_BR
dc.contributor.referee3	Anderson de Rezende Rocha	pt_BR
dc.contributor.referee4	William Robson Schwartz	pt_BR
dc.creator	Thiago Luange Gomes	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/0871887999409454	pt_BR
dc.date.accessioned	2022-03-12T00:03:47Z	-
dc.date.available	2022-03-12T00:03:47Z	-
dc.date.issued	2021-08-06	-
dc.identifier.uri	http://hdl.handle.net/1843/40041	-
dc.description.abstract	Esta tese está no contexto de transferência de movimento e aparência humana entre vídeos monoculares com preservação de características do movimento, forma do corpo e qualidade visual. Em outras palavras, dados dois vídeos de entrada, esta tese investiga como sintetizar um novo vídeo, onde a pessoa do primeiro vídeo é colocada no contexto do segundo vídeo realizando os movimentos da pessoa do segundo vídeo. Possíveis domínios de aplicação são filmes e anúncios que contam com personagens sintéticos e ambientes virtuais para criar conteúdo visual. Este trabalho introduz dois novos métodos para transferir aparência e movimento humano entre vídeos monoculares e por consequência aumentar as possibilidades criativas de conteúdo visual. Ao contrário dos recentes métodos de transferência baseados em aprendizado, nossas abordagens levam em conta restrições de forma, aparência e movimento tridimensional. Especificamente, o primeiro método usa uma nova técnica de renderização baseada em imagens que apresenta resultados comparáveis com as técnicas mais modernas, com a vantagem de não demandar um custoso processo de treinamento. O segundo método faz uso de técnicas de renderização diferencial e modelos paramétricos para produzir um modelo 3D completamente controlável, ou seja, um modelo onde o usuário pode controlar a pose humana e os parâmetros de renderização. Experimentos em diferentes vídeos mostram que nossos métodos preservam características específicas do movimento que devem ser mantidas (por exemplo, pés tocando o chão e mãos tocando um objeto) enquanto mantém os melhores valores para aparência em termos de Similaridade Estrutural (SSIM), Learned Perceptual Image Patch Similarity (LPIPS), Erro Quadrático Médio (EQM) e Fréchet Video Distance (FVD). Além disso, como resultado adicional, esta tese apresenta uma base de dados composta de vídeos com anotações das restrições do movimento e movimento pareados para avaliar a transferência de movimento.	pt_BR
dc.description.resumo	This dissertation is in the context of transferring human motion and appearance from video to video preserving motion features, body shape, and visual quality. In other words, given two input videos, we investigate how to synthesize a new video, where a target person from the first video is placed into a new context performing different motions from the second video. Possible application domain are movies and advertisements that rely on synthetic characters and virtual environments to create visual content. We introduce two novel methods for transferring appearance and retargeting human motion from monocular videos, and by consequence, increase the creative possibilities of visual content. Differently from recent appearance transferring methods, our approaches take into account 3D shape, appearance, and motion constraints. Specifically, our first method is based on a hybrid image-based rendering technique that exhibits competitive visual retargeting quality compared to state-of-the-art neural rendering approaches, even without computationally intensive training. Taking advantages of both differentiable rendering and the 3D parametric model, our second data-driven method produces a fully 3D controllable human model, i.e., the user can control the human pose and rendering parameters. Experiments on different videos show that our methods preserve specific features of the motion that must be maintained (e.g., feet touching the floor, hands touching a particular object) while holding the best values for appearance in terms of Structural Similarity (SSIM), Learned Perceptual Image Patch Similarity (LPIPS), Mean Squared Error (MSE), and Fréchet Video Distance (FVD). We also provide to the community a new dataset composed of several annotated videos with motion constraints for retargeting applications and paired motion sequences from different characters to evaluate transferring approaches.	pt_BR
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico	pt_BR
dc.description.sponsorship	FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais	pt_BR
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICEX - INSTITUTO DE CIÊNCIAS EXATAS	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/pt/	*
dc.subject	Motion Transfer	pt_BR
dc.subject	Human Motion	pt_BR
dc.subject	Motion Retargeting	pt_BR
dc.subject	Human-image synthesis	pt_BR
dc.subject	Video Generation	pt_BR
dc.subject	Image Synthesis	pt_BR
dc.subject	Image Manipulation	pt_BR
dc.subject.other	Computação - Teses	pt_BR
dc.subject.other	Visão por computador - Teses	pt_BR
dc.subject.other	Computação gráfica - Teses	pt_BR
dc.subject.other	Processamento de vídeos - Teses	pt_BR
dc.subject.other	Corpo humano e tecnologia em movimento - Teses	pt_BR
dc.title	Transferring human motion and appearance in monocular videos	pt_BR
dc.title.alternative	Transferência de movimento e aparência humana entre vídeos monoculares	pt_BR
dc.type	Tese	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
Thesis_Thiago_final.pdf		13.69 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License