Use este identificador para citar o ir al link de este elemento:
http://hdl.handle.net/1843/53872
Registro completo de metadatos
Campo DC | Valor | Idioma |
---|---|---|
dc.contributor.advisor1 | Erickson Rangel do Nascimento | pt_BR |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/6900352659470721 | pt_BR |
dc.contributor.referee1 | Michel Melo da Silva | pt_BR |
dc.contributor.referee2 | Flávio Luis Cardeal Pádua | pt_BR |
dc.creator | Edson Roteia Araujo Junior | pt_BR |
dc.creator.Lattes | http://lattes.cnpq.br/8004318850516100 | pt_BR |
dc.date.accessioned | 2023-05-24T16:32:30Z | - |
dc.date.available | 2023-05-24T16:32:30Z | - |
dc.date.issued | 2023-02-28 | - |
dc.identifier.uri | http://hdl.handle.net/1843/53872 | - |
dc.description.abstract | A sumarização de vídeo se refere à criação de uma versão resumida de um vídeo mais longo, destacando as partes mais informativas ou engajantes. Esta técnica é útil na área da recuperação de informação multimídia, permitindo que os usuários acessem facilmente informações importantes em grandes coleções de vídeos. Os métodos de sumarização de vídeo, que ajudam os usuários a consumir a crescente quantidade de dados visuais publicados, foram melhorados como resultado do avanço da pesquisa em visão computacional e aprendizado de máquina. Apesar do progresso realizado por backbones poderosos e designs de arquiteturas de redes neurais, a maioria dos métodos atuais negligencia as informações multimodais que estão ampla e naturalmente disponíveis na maioria dos cenários, como os sinais audiovisuais presentes em um vídeo. Neste trabalho, apresentamos um novo método baseado em informações audiovisuais para resumir vídeos. Ao contrário da maioria dos métodos atuais, nosso método aproveita as informações multimodais presentes nos vídeos, incluindo os sinais audiovisuais, para melhorar o desempenho da sumarização de vídeo. Nosso modelo incorpora essa informação em uma arquitetura baseada em transformers e demonstra uma melhora significativa como resultado. Além disso, propomos uma nova estratégia de treinamento usando pseudo-rótulos gerados a partir de características psicoacústicas do vídeo, o que nos permite alcançar resultados de ponta na configuração não-supervisionada. Por fim, introduzimos um novo dataset de sumarização de vídeo e avaliamos o desempenho de nosso método através de uma abordagem de avaliação de zero-shot. Nosso método supera as técnicas atuais estado da arte nesse domínio. Avaliamos as contribuições de cada componente do nosso método com estudos de ablação cuidadosos. Nossos experimentos mostram que nosso método é uma base de comparação forte tanto na configuração supervisionada quanto na não-supervisionada, alcançando o melhor desempenho na última com pontuação F1 de 52.6 no conjunto de dados SumMe. | pt_BR |
dc.description.resumo | Video summarization refers to the creation of a condensed version of a longer video, highlighting the most informative or engaging parts. This technique is useful in the field of multimedia information retrieval, allowing users to easily access important information from large video collections. Video summarization methods, which help users digest the increasing amount of published visual data, have been improved as a result of the advance in computer vision and machine learning research. Despite the remarkable progress that has been made by powerful backbones and clever architectural designs, most of the current methods neglect the multi-modal information that is widely and naturally available in most scenarios, such as the audiovisual signals present in a video. In this thesis, we present a novel method based on audiovisual information to summarize videos. In contrast to most current methods, our method leverages the multi-modal information present in videos, including both audiovisual signals, to improve the performance of video summarization. Our model incorporates this information in a transformer-based architecture and demonstrates significant improvement as a result. Additionally, we propose a new training schema using pseudo-labels generated from the psychoacoustic features of the video, allowing us to achieve state-of-the-art results in the unsupervised setting. Furthermore, we introduce a novel audiovisual video summarization dataset and assess our method's performance on it through a zero-shot evaluation approach. Our method surpasses the current state-of-the-art techniques in this domain. We evaluate the contributions of each of our method's components with thorough ablation studies. Our experiments show that our method is a strong baseline in both supervised and unsupervised settings, achieving the best performance in the latter with an F1 score of 52.6 on the SumMe dataset. | pt_BR |
dc.description.sponsorship | CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Minas Gerais | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO | pt_BR |
dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação | pt_BR |
dc.publisher.initials | UFMG | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Video Summarization | pt_BR |
dc.subject | Semantic Information | pt_BR |
dc.subject | Psychoacoustics | pt_BR |
dc.subject | Multi-modal Learning | pt_BR |
dc.subject.other | Computação – Teses | pt_BR |
dc.subject.other | Sumarização automática de vídeo – Teses | pt_BR |
dc.subject.other | Psicoacústica – Teses | pt_BR |
dc.subject.other | Aprendizagem multimodal – Teses | pt_BR |
dc.subject.other | Semântica – Teses. | pt_BR |
dc.title | An audiovisual approach for video summarization using psychoacoustic features | pt_BR |
dc.title.alternative | Uma abordagem audiovisual para sumarização de vídeos utilizando features psicoacústicas | pt_BR |
dc.type | Dissertação | pt_BR |
Aparece en las colecciones: | Dissertações de Mestrado |
archivos asociados a este elemento:
archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
edson_araujo_dissertacao.pdf | Texto final da dissertação de mestrado | 9.23 MB | Adobe PDF | Visualizar/Abrir |
Los elementos en el repositorio están protegidos por copyright, con todos los derechos reservados, salvo cuando es indicado lo contrario.