Musical Hyperlapse: A multimodal approach to accelerate first-person videos

Diognei de Matos

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/39051

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Erickson Rangel do Nascimento	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6900352659470721	pt_BR
dc.contributor.referee1	Michel Melo da Silva	pt_BR
dc.contributor.referee2	Ana Paula Couto da Silva	pt_BR
dc.creator	Diognei de Matos	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/0864418403744849	pt_BR
dc.date.accessioned	2022-01-08T03:50:50Z	-
dc.date.available	2022-01-08T03:50:50Z	-
dc.date.issued	2021-06-04	-
dc.identifier.uri	http://hdl.handle.net/1843/39051	-
dc.description.abstract	Com a facilidade de obtenção de dispositivos portáteis como câmeras e smartphones, a gravação de vídeos em primeira pessoa vem se tornando um hábito comum. Esses vídeos normalmente são muito longos e cansativos de assistir, sendo necessárias edições manuais. Com isso, surgiram métodos de aceleração que buscam reduzir o tamanho desses vídeos, maximizando a estabilidade visual sem perder as informações relevantes e produzindo um vídeo acelerado agradável de assistir. Apesar do progresso recente dos métodos de aceleração, esses métodos não consideram a inserção da música de fundo nos vídeos. A inclusão da música de fundo pode tornar os vídeos acelerados ainda mais agradáveis, pois o usuário poderá assistir o vídeo acelerado combinado com sua música de interesse. Esta dissertação apresenta uma nova metodologia que cria vídeos acelerados e insere automaticamente a música de fundo, combinando as emoções induzidas pelas modalidades visuais e acústicas. Nosso método reconhece as emoções induzidas pelo vídeo e pela música ao longo do tempo, usando redes neurais artificiais, criando curvas de emoção para o vídeo e para a música, representadas no modelo de Russell, um modelo de representação da emoção usado na área de psicologia. Nosso método possui também um algoritmo de otimização que calcula as similaridades entre os quadros do vídeo e segmentos da música, criando uma matriz custo dinâmico e computando o caminho ótimo que alinha a curva de emoção do vídeo com a da música, preservando também a estabilidade visual e continuidade temporal do vídeo acelerado. Avaliamos o nosso método em um conjunto de vídeos e músicas com conteúdos e estilos variados, comparando-o quantitativamente e qualitativamente com outros métodos de aceleração de vídeo presentes na literatura. Os resultados mostram que nosso método atinge o melhor desempenho em maximizar a similaridade das emoções, aumentando-a significativamente na maioria dos casos, enquanto também mantém a estabilidade visual dos vídeos acelerados em comparação com os outros métodos da literatura.	pt_BR
dc.description.resumo	With the ease of obtaining portable devices such as cameras and smartphones, the recording of first-person videos has become a common habit. These videos are usually very long and tiring to watch, requiring manual edition. Thereby, fast-forward methods emerged seeking to reduce the size of these videos, maximizing the visual quality without losing the relevant information and producing an accelerated video that is pleasant to watch. Despite the recent progress of fast-forward methods, these methods do not consider inserting background music in the videos. Inserting background music can make accelerated videos even more pleasant, as the user will be able to watch the accelerated video combined with their music of interest. This thesis presents a new methodology that creates accelerated videos and automatically inserts the background music, combining the emotions induced by the visual and acoustic modalities. Our method recognizes the emotions induced by video and music over time, using artificial neural networks, creating emotion curves for video and music, represented in Russell's model, an emotion representation model widely used in psychology. Our method also has an optimization algorithm that calculates the similarities between video frames and music segments, creating a dynamic cost matrix and computing the optimal path that aligns the video's emotion curve with the music's emotion curve, preserving also the visual quality and temporal continuity of the accelerated video. We evaluated our method in a set of videos and songs with varied content and styles, comparing it quantitatively and qualitatively with other fast-forward methods present in the literature. The results show that our method achieves the best performance in maximizing the similarity of emotions, increasing it significantly in most cases, while also maintaining the visual quality of the accelerated videos compared to other methods in the literature.	pt_BR
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico	pt_BR
dc.description.sponsorship	FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais	pt_BR
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/	*
dc.subject	Computer vision	pt_BR
dc.subject	Music emotion recognition	pt_BR
dc.subject	Image emotion recognition	pt_BR
dc.subject	Semantic hyperlapse	pt_BR
dc.subject.other	Computação – Teses	pt_BR
dc.subject.other	Visão computacional –Teses	pt_BR
dc.subject.other	Reconhecimento de emoções - Teses	pt_BR
dc.title	Musical Hyperlapse: A multimodal approach to accelerate first-person videos	pt_BR
dc.title.alternative	Hyperlapse musical: uma abordagem multimodal para acelerar vídeos em primeira pessoa	pt_BR
dc.type	Dissertação	pt_BR
dc.identifier.orcid	https://orcid.org/ 0000-0002-1254-8482	pt_BR
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
Diognei Thesis.pdf	Dissertação de Mestrado	55.19 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License