Musical Hyperlapse: A multimodal approach to accelerate first-person videos

dc.creatorDiognei de Matos
dc.date.accessioned2022-01-08T03:50:50Z
dc.date.accessioned2025-09-09T00:10:18Z
dc.date.available2022-01-08T03:50:50Z
dc.date.issued2021-06-04
dc.description.abstractCom a facilidade de obtenção de dispositivos portáteis como câmeras e smartphones, a gravação de vídeos em primeira pessoa vem se tornando um hábito comum. Esses vídeos normalmente são muito longos e cansativos de assistir, sendo necessárias edições manuais. Com isso, surgiram métodos de aceleração que buscam reduzir o tamanho desses vídeos, maximizando a estabilidade visual sem perder as informações relevantes e produzindo um vídeo acelerado agradável de assistir. Apesar do progresso recente dos métodos de aceleração, esses métodos não consideram a inserção da música de fundo nos vídeos. A inclusão da música de fundo pode tornar os vídeos acelerados ainda mais agradáveis, pois o usuário poderá assistir o vídeo acelerado combinado com sua música de interesse. Esta dissertação apresenta uma nova metodologia que cria vídeos acelerados e insere automaticamente a música de fundo, combinando as emoções induzidas pelas modalidades visuais e acústicas. Nosso método reconhece as emoções induzidas pelo vídeo e pela música ao longo do tempo, usando redes neurais artificiais, criando curvas de emoção para o vídeo e para a música, representadas no modelo de Russell, um modelo de representação da emoção usado na área de psicologia. Nosso método possui também um algoritmo de otimização que calcula as similaridades entre os quadros do vídeo e segmentos da música, criando uma matriz custo dinâmico e computando o caminho ótimo que alinha a curva de emoção do vídeo com a da música, preservando também a estabilidade visual e continuidade temporal do vídeo acelerado. Avaliamos o nosso método em um conjunto de vídeos e músicas com conteúdos e estilos variados, comparando-o quantitativamente e qualitativamente com outros métodos de aceleração de vídeo presentes na literatura. Os resultados mostram que nosso método atinge o melhor desempenho em maximizar a similaridade das emoções, aumentando-a significativamente na maioria dos casos, enquanto também mantém a estabilidade visual dos vídeos acelerados em comparação com os outros métodos da literatura.
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.description.sponsorshipFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.identifier.urihttps://hdl.handle.net/1843/39051
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/
dc.subjectComputação – Teses
dc.subjectVisão computacional –Teses
dc.subjectReconhecimento de emoções - Teses
dc.subject.otherComputer vision
dc.subject.otherMusic emotion recognition
dc.subject.otherImage emotion recognition
dc.subject.otherSemantic hyperlapse
dc.titleMusical Hyperlapse: A multimodal approach to accelerate first-person videos
dc.title.alternativeHyperlapse musical: uma abordagem multimodal para acelerar vídeos em primeira pessoa
dc.typeDissertação de mestrado
local.contributor.advisor1Erickson Rangel do Nascimento
local.contributor.advisor1Latteshttp://lattes.cnpq.br/6900352659470721
local.contributor.referee1Michel Melo da Silva
local.contributor.referee1Ana Paula Couto da Silva
local.creator.Latteshttp://lattes.cnpq.br/0864418403744849
local.description.resumoWith the ease of obtaining portable devices such as cameras and smartphones, the recording of first-person videos has become a common habit. These videos are usually very long and tiring to watch, requiring manual edition. Thereby, fast-forward methods emerged seeking to reduce the size of these videos, maximizing the visual quality without losing the relevant information and producing an accelerated video that is pleasant to watch. Despite the recent progress of fast-forward methods, these methods do not consider inserting background music in the videos. Inserting background music can make accelerated videos even more pleasant, as the user will be able to watch the accelerated video combined with their music of interest. This thesis presents a new methodology that creates accelerated videos and automatically inserts the background music, combining the emotions induced by the visual and acoustic modalities. Our method recognizes the emotions induced by video and music over time, using artificial neural networks, creating emotion curves for video and music, represented in Russell's model, an emotion representation model widely used in psychology. Our method also has an optimization algorithm that calculates the similarities between video frames and music segments, creating a dynamic cost matrix and computing the optimal path that aligns the video's emotion curve with the music's emotion curve, preserving also the visual quality and temporal continuity of the accelerated video. We evaluated our method in a set of videos and songs with varied content and styles, comparing it quantitatively and qualitatively with other fast-forward methods present in the literature. The results show that our method achieves the best performance in maximizing the similarity of emotions, increasing it significantly in most cases, while also maintaining the visual quality of the accelerated videos compared to other methods in the literature.
local.identifier.orcidhttps://orcid.org/ 0000-0002-1254-8482
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Diognei Thesis.pdf
Tamanho:
53.9 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: