An audiovisual approach for video summarization using psychoacoustic features

dc.creatorEdson Roteia Araujo Junior
dc.date.accessioned2023-05-24T16:32:30Z
dc.date.accessioned2025-09-09T00:28:33Z
dc.date.available2023-05-24T16:32:30Z
dc.date.issued2023-02-28
dc.description.abstractA sumarização de vídeo se refere à criação de uma versão resumida de um vídeo mais longo, destacando as partes mais informativas ou engajantes. Esta técnica é útil na área da recuperação de informação multimídia, permitindo que os usuários acessem facilmente informações importantes em grandes coleções de vídeos. Os métodos de sumarização de vídeo, que ajudam os usuários a consumir a crescente quantidade de dados visuais publicados, foram melhorados como resultado do avanço da pesquisa em visão computacional e aprendizado de máquina. Apesar do progresso realizado por backbones poderosos e designs de arquiteturas de redes neurais, a maioria dos métodos atuais negligencia as informações multimodais que estão ampla e naturalmente disponíveis na maioria dos cenários, como os sinais audiovisuais presentes em um vídeo. Neste trabalho, apresentamos um novo método baseado em informações audiovisuais para resumir vídeos. Ao contrário da maioria dos métodos atuais, nosso método aproveita as informações multimodais presentes nos vídeos, incluindo os sinais audiovisuais, para melhorar o desempenho da sumarização de vídeo. Nosso modelo incorpora essa informação em uma arquitetura baseada em transformers e demonstra uma melhora significativa como resultado. Além disso, propomos uma nova estratégia de treinamento usando pseudo-rótulos gerados a partir de características psicoacústicas do vídeo, o que nos permite alcançar resultados de ponta na configuração não-supervisionada. Por fim, introduzimos um novo dataset de sumarização de vídeo e avaliamos o desempenho de nosso método através de uma abordagem de avaliação de zero-shot. Nosso método supera as técnicas atuais estado da arte nesse domínio. Avaliamos as contribuições de cada componente do nosso método com estudos de ablação cuidadosos. Nossos experimentos mostram que nosso método é uma base de comparação forte tanto na configuração supervisionada quanto na não-supervisionada, alcançando o melhor desempenho na última com pontuação F1 de 52.6 no conjunto de dados SumMe.
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.identifier.urihttps://hdl.handle.net/1843/53872
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectComputação – Teses
dc.subjectSumarização automática de vídeo – Teses
dc.subjectPsicoacústica – Teses
dc.subjectAprendizagem multimodal – Teses
dc.subjectSemântica – Teses.
dc.subject.otherVideo Summarization
dc.subject.otherSemantic Information
dc.subject.otherPsychoacoustics
dc.subject.otherMulti-modal Learning
dc.titleAn audiovisual approach for video summarization using psychoacoustic features
dc.title.alternativeUma abordagem audiovisual para sumarização de vídeos utilizando features psicoacústicas
dc.typeDissertação de mestrado
local.contributor.advisor1Erickson Rangel do Nascimento
local.contributor.advisor1Latteshttp://lattes.cnpq.br/6900352659470721
local.contributor.referee1Michel Melo da Silva
local.contributor.referee1Flávio Luis Cardeal Pádua
local.creator.Latteshttp://lattes.cnpq.br/8004318850516100
local.description.resumoVideo summarization refers to the creation of a condensed version of a longer video, highlighting the most informative or engaging parts. This technique is useful in the field of multimedia information retrieval, allowing users to easily access important information from large video collections. Video summarization methods, which help users digest the increasing amount of published visual data, have been improved as a result of the advance in computer vision and machine learning research. Despite the remarkable progress that has been made by powerful backbones and clever architectural designs, most of the current methods neglect the multi-modal information that is widely and naturally available in most scenarios, such as the audiovisual signals present in a video. In this thesis, we present a novel method based on audiovisual information to summarize videos. In contrast to most current methods, our method leverages the multi-modal information present in videos, including both audiovisual signals, to improve the performance of video summarization. Our model incorporates this information in a transformer-based architecture and demonstrates significant improvement as a result. Additionally, we propose a new training schema using pseudo-labels generated from the psychoacoustic features of the video, allowing us to achieve state-of-the-art results in the unsupervised setting. Furthermore, we introduce a novel audiovisual video summarization dataset and assess our method's performance on it through a zero-shot evaluation approach. Our method surpasses the current state-of-the-art techniques in this domain. We evaluate the contributions of each of our method's components with thorough ablation studies. Our experiments show that our method is a strong baseline in both supervised and unsupervised settings, achieving the best performance in the latter with an F1 score of 52.6 on the SumMe dataset.
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
edson_araujo_dissertacao.pdf
Tamanho:
9.01 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: