VESSA: Video-based Efficient Self-Supervised Adaptation for visual foundation models

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Dissertação de mestrado

Título alternativo

VESSA: Adaptação Autossupervisionada Eficiente Baseada em Vídeo para modelos de base visual

Primeiro orientador

Membros da banca

Pedro Olmo Stancioli Vaz de Melo
David Menotti Gomes

Resumo

Abstract

Modelos fundacionais têm impulsionado avanços em visão computacional, alcançando alto desempenho em diversas tarefas por meio de pré-treinamento em larga escala e ajuste supervisionado. No entanto, esses modelos podem apresentar desempenho insatisfatório em domínios com mudanças de distribuição e escassez de rótulos, onde o ajuste supervisionado não é viável. Embora a continuação do aprendizado auto-supervisionado seja comum em modelos de linguagem generativos, essa abordagem ainda não mostrou eficácia em modelos de codificação centrados em visão. Para enfrentar esse desafio, propomos uma nova formulação de ajuste fino auto-supervisionado para modelos fundacionais visuais, na qual o modelo é adaptado a um novo domínio sem necessidade de anotações, utilizando apenas vídeos curtos centrados em objetos. Neste trabalho, é proposta a VESSA: Video-based Efficient Self-Supervised Adaptation for visual foundation models. A técnica de treinamento VESSA baseia-se em um paradigma de auto-destilação, no qual é essencial ajustar cuidadosamente as cabeças de predição e utilizar técnicas de adaptação eficientes em parâmetros — caso contrário, o modelo pode esquecer rapidamente o conhecimento prévio. VESSA se beneficia significativamente de observações de objetos em diferentes quadros de vídeo, aprendendo de forma eficiente a robustez frente a variações nas condições de captura, sem necessidade de rótulos. Por meio de experimentos abrangentes com três modelos fundacionais de visão em dois conjuntos de dados, VESSA demonstra melhorias consistentes em tarefas de classificação, superando os modelos base e métodos anteriores de adaptação. Os conjuntos de dados utilizados nos experimentos foram CO3D e MVImageNet, e os modelos fundationais visuais avaliados incluem DINO, DINOv2 e TIPS.

Assunto

Computação – Teses, Visão por computador – Teses, Processamento de imagens – Teses

Palavras-chave

Vision foundation models, Self-supervised fine-tuning, Video-based adaptation, Parameter-efficient tuning

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso aberto