Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/53872
Registro completo de metadatos
Campo DCValorIdioma
dc.contributor.advisor1Erickson Rangel do Nascimentopt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6900352659470721pt_BR
dc.contributor.referee1Michel Melo da Silvapt_BR
dc.contributor.referee2Flávio Luis Cardeal Páduapt_BR
dc.creatorEdson Roteia Araujo Juniorpt_BR
dc.creator.Latteshttp://lattes.cnpq.br/8004318850516100pt_BR
dc.date.accessioned2023-05-24T16:32:30Z-
dc.date.available2023-05-24T16:32:30Z-
dc.date.issued2023-02-28-
dc.identifier.urihttp://hdl.handle.net/1843/53872-
dc.description.abstractA sumarização de vídeo se refere à criação de uma versão resumida de um vídeo mais longo, destacando as partes mais informativas ou engajantes. Esta técnica é útil na área da recuperação de informação multimídia, permitindo que os usuários acessem facilmente informações importantes em grandes coleções de vídeos. Os métodos de sumarização de vídeo, que ajudam os usuários a consumir a crescente quantidade de dados visuais publicados, foram melhorados como resultado do avanço da pesquisa em visão computacional e aprendizado de máquina. Apesar do progresso realizado por backbones poderosos e designs de arquiteturas de redes neurais, a maioria dos métodos atuais negligencia as informações multimodais que estão ampla e naturalmente disponíveis na maioria dos cenários, como os sinais audiovisuais presentes em um vídeo. Neste trabalho, apresentamos um novo método baseado em informações audiovisuais para resumir vídeos. Ao contrário da maioria dos métodos atuais, nosso método aproveita as informações multimodais presentes nos vídeos, incluindo os sinais audiovisuais, para melhorar o desempenho da sumarização de vídeo. Nosso modelo incorpora essa informação em uma arquitetura baseada em transformers e demonstra uma melhora significativa como resultado. Além disso, propomos uma nova estratégia de treinamento usando pseudo-rótulos gerados a partir de características psicoacústicas do vídeo, o que nos permite alcançar resultados de ponta na configuração não-supervisionada. Por fim, introduzimos um novo dataset de sumarização de vídeo e avaliamos o desempenho de nosso método através de uma abordagem de avaliação de zero-shot. Nosso método supera as técnicas atuais estado da arte nesse domínio. Avaliamos as contribuições de cada componente do nosso método com estudos de ablação cuidadosos. Nossos experimentos mostram que nosso método é uma base de comparação forte tanto na configuração supervisionada quanto na não-supervisionada, alcançando o melhor desempenho na última com pontuação F1 de 52.6 no conjunto de dados SumMe.pt_BR
dc.description.resumoVideo summarization refers to the creation of a condensed version of a longer video, highlighting the most informative or engaging parts. This technique is useful in the field of multimedia information retrieval, allowing users to easily access important information from large video collections. Video summarization methods, which help users digest the increasing amount of published visual data, have been improved as a result of the advance in computer vision and machine learning research. Despite the remarkable progress that has been made by powerful backbones and clever architectural designs, most of the current methods neglect the multi-modal information that is widely and naturally available in most scenarios, such as the audiovisual signals present in a video. In this thesis, we present a novel method based on audiovisual information to summarize videos. In contrast to most current methods, our method leverages the multi-modal information present in videos, including both audiovisual signals, to improve the performance of video summarization. Our model incorporates this information in a transformer-based architecture and demonstrates significant improvement as a result. Additionally, we propose a new training schema using pseudo-labels generated from the psychoacoustic features of the video, allowing us to achieve state-of-the-art results in the unsupervised setting. Furthermore, we introduce a novel audiovisual video summarization dataset and assess our method's performance on it through a zero-shot evaluation approach. Our method surpasses the current state-of-the-art techniques in this domain. We evaluate the contributions of each of our method's components with thorough ablation studies. Our experiments show that our method is a strong baseline in both supervised and unsupervised settings, achieving the best performance in the latter with an F1 score of 52.6 on the SumMe dataset.pt_BR
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológicopt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃOpt_BR
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectVideo Summarizationpt_BR
dc.subjectSemantic Informationpt_BR
dc.subjectPsychoacousticspt_BR
dc.subjectMulti-modal Learningpt_BR
dc.subject.otherComputação – Tesespt_BR
dc.subject.otherSumarização automática de vídeo – Tesespt_BR
dc.subject.otherPsicoacústica – Tesespt_BR
dc.subject.otherAprendizagem multimodal – Tesespt_BR
dc.subject.otherSemântica – Teses.pt_BR
dc.titleAn audiovisual approach for video summarization using psychoacoustic featurespt_BR
dc.title.alternativeUma abordagem audiovisual para sumarização de vídeos utilizando features psicoacústicaspt_BR
dc.typeDissertaçãopt_BR
Aparece en las colecciones:Dissertações de Mestrado

archivos asociados a este elemento:
archivo Descripción TamañoFormato 
edson_araujo_dissertacao.pdfTexto final da dissertação de mestrado9.23 MBAdobe PDFVisualizar/Abrir


Los elementos en el repositorio están protegidos por copyright, con todos los derechos reservados, salvo cuando es indicado lo contrario.