An audiovisual approach for video summarization using psychoacoustic features

Edson Roteia Araujo Junior

Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/53872

Registro completo de metadatos

Campo DC	Valor	Idioma
dc.contributor.advisor1	Erickson Rangel do Nascimento	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6900352659470721	pt_BR
dc.contributor.referee1	Michel Melo da Silva	pt_BR
dc.contributor.referee2	Flávio Luis Cardeal Pádua	pt_BR
dc.creator	Edson Roteia Araujo Junior	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/8004318850516100	pt_BR
dc.date.accessioned	2023-05-24T16:32:30Z	-
dc.date.available	2023-05-24T16:32:30Z	-
dc.date.issued	2023-02-28	-
dc.identifier.uri	http://hdl.handle.net/1843/53872	-
dc.description.abstract	A sumarização de vídeo se refere à criação de uma versão resumida de um vídeo mais longo, destacando as partes mais informativas ou engajantes. Esta técnica é útil na área da recuperação de informação multimídia, permitindo que os usuários acessem facilmente informações importantes em grandes coleções de vídeos. Os métodos de sumarização de vídeo, que ajudam os usuários a consumir a crescente quantidade de dados visuais publicados, foram melhorados como resultado do avanço da pesquisa em visão computacional e aprendizado de máquina. Apesar do progresso realizado por backbones poderosos e designs de arquiteturas de redes neurais, a maioria dos métodos atuais negligencia as informações multimodais que estão ampla e naturalmente disponíveis na maioria dos cenários, como os sinais audiovisuais presentes em um vídeo. Neste trabalho, apresentamos um novo método baseado em informações audiovisuais para resumir vídeos. Ao contrário da maioria dos métodos atuais, nosso método aproveita as informações multimodais presentes nos vídeos, incluindo os sinais audiovisuais, para melhorar o desempenho da sumarização de vídeo. Nosso modelo incorpora essa informação em uma arquitetura baseada em transformers e demonstra uma melhora significativa como resultado. Além disso, propomos uma nova estratégia de treinamento usando pseudo-rótulos gerados a partir de características psicoacústicas do vídeo, o que nos permite alcançar resultados de ponta na configuração não-supervisionada. Por fim, introduzimos um novo dataset de sumarização de vídeo e avaliamos o desempenho de nosso método através de uma abordagem de avaliação de zero-shot. Nosso método supera as técnicas atuais estado da arte nesse domínio. Avaliamos as contribuições de cada componente do nosso método com estudos de ablação cuidadosos. Nossos experimentos mostram que nosso método é uma base de comparação forte tanto na configuração supervisionada quanto na não-supervisionada, alcançando o melhor desempenho na última com pontuação F1 de 52.6 no conjunto de dados SumMe.	pt_BR
dc.description.resumo	Video summarization refers to the creation of a condensed version of a longer video, highlighting the most informative or engaging parts. This technique is useful in the field of multimedia information retrieval, allowing users to easily access important information from large video collections. Video summarization methods, which help users digest the increasing amount of published visual data, have been improved as a result of the advance in computer vision and machine learning research. Despite the remarkable progress that has been made by powerful backbones and clever architectural designs, most of the current methods neglect the multi-modal information that is widely and naturally available in most scenarios, such as the audiovisual signals present in a video. In this thesis, we present a novel method based on audiovisual information to summarize videos. In contrast to most current methods, our method leverages the multi-modal information present in videos, including both audiovisual signals, to improve the performance of video summarization. Our model incorporates this information in a transformer-based architecture and demonstrates significant improvement as a result. Additionally, we propose a new training schema using pseudo-labels generated from the psychoacoustic features of the video, allowing us to achieve state-of-the-art results in the unsupervised setting. Furthermore, we introduce a novel audiovisual video summarization dataset and assess our method's performance on it through a zero-shot evaluation approach. Our method surpasses the current state-of-the-art techniques in this domain. We evaluate the contributions of each of our method's components with thorough ablation studies. Our experiments show that our method is a strong baseline in both supervised and unsupervised settings, achieving the best performance in the latter with an F1 score of 52.6 on the SumMe dataset.	pt_BR
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Video Summarization	pt_BR
dc.subject	Semantic Information	pt_BR
dc.subject	Psychoacoustics	pt_BR
dc.subject	Multi-modal Learning	pt_BR
dc.subject.other	Computação – Teses	pt_BR
dc.subject.other	Sumarização automática de vídeo – Teses	pt_BR
dc.subject.other	Psicoacústica – Teses	pt_BR
dc.subject.other	Aprendizagem multimodal – Teses	pt_BR
dc.subject.other	Semântica – Teses.	pt_BR
dc.title	An audiovisual approach for video summarization using psychoacoustic features	pt_BR
dc.title.alternative	Uma abordagem audiovisual para sumarização de vídeos utilizando features psicoacústicas	pt_BR
dc.type	Dissertação	pt_BR
Aparece en las colecciones:	Dissertações de Mestrado

archivos asociados a este elemento:

archivo	Descripción	Tamaño	Formato
edson_araujo_dissertacao.pdf	Texto final da dissertação de mestrado	9.23 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simple del elemento Visualizar estadísticas