VESSA: Video-based Efficient Self-Supervised Adaptation for visual foundation models
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
VESSA: Adaptação Autossupervisionada Eficiente Baseada em Vídeo para modelos de base visual
Primeiro orientador
Membros da banca
Pedro Olmo Stancioli Vaz de Melo
David Menotti Gomes
David Menotti Gomes
Resumo
Abstract
Modelos fundacionais têm impulsionado avanços em visão computacional, alcançando alto desempenho em diversas tarefas por meio de pré-treinamento em larga escala e ajuste supervisionado. No entanto, esses modelos podem apresentar desempenho insatisfatório em domínios com mudanças de distribuição e escassez de rótulos, onde o ajuste supervisionado não é viável. Embora a continuação do aprendizado auto-supervisionado seja comum em modelos de linguagem generativos, essa abordagem ainda não mostrou eficácia em modelos de codificação centrados em visão. Para enfrentar esse desafio, propomos uma nova formulação de ajuste fino auto-supervisionado para modelos fundacionais visuais, na qual o modelo é adaptado a um novo domínio sem necessidade de anotações, utilizando apenas vídeos curtos centrados em objetos. Neste trabalho, é proposta a VESSA: Video-based Efficient Self-Supervised Adaptation for visual foundation models. A técnica de treinamento VESSA baseia-se em um paradigma de auto-destilação, no qual é essencial ajustar cuidadosamente as cabeças de predição e utilizar técnicas de adaptação eficientes em parâmetros — caso contrário, o modelo pode esquecer rapidamente o conhecimento prévio. VESSA se beneficia significativamente de observações de objetos em diferentes quadros de vídeo, aprendendo de forma eficiente a robustez frente a variações nas condições de captura, sem necessidade
de rótulos. Por meio de experimentos abrangentes com três modelos fundacionais de visão em dois conjuntos de dados, VESSA demonstra melhorias consistentes em tarefas de classificação, superando os modelos base e métodos anteriores de adaptação. Os conjuntos de dados utilizados nos experimentos foram CO3D e MVImageNet, e os modelos fundationais
visuais avaliados incluem DINO, DINOv2 e TIPS.
Assunto
Computação – Teses, Visão por computador – Teses, Processamento de imagens – Teses
Palavras-chave
Vision foundation models, Self-supervised fine-tuning, Video-based adaptation, Parameter-efficient tuning
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso aberto
