VESSA: Video-based Efficient Self-Supervised Adaptation for visual foundation models

dc.creatorJesimon Barreto Santos
dc.date.accessioned2026-02-09T16:54:02Z
dc.date.issued2025-07-22
dc.description.abstractModelos fundacionais têm impulsionado avanços em visão computacional, alcançando alto desempenho em diversas tarefas por meio de pré-treinamento em larga escala e ajuste supervisionado. No entanto, esses modelos podem apresentar desempenho insatisfatório em domínios com mudanças de distribuição e escassez de rótulos, onde o ajuste supervisionado não é viável. Embora a continuação do aprendizado auto-supervisionado seja comum em modelos de linguagem generativos, essa abordagem ainda não mostrou eficácia em modelos de codificação centrados em visão. Para enfrentar esse desafio, propomos uma nova formulação de ajuste fino auto-supervisionado para modelos fundacionais visuais, na qual o modelo é adaptado a um novo domínio sem necessidade de anotações, utilizando apenas vídeos curtos centrados em objetos. Neste trabalho, é proposta a VESSA: Video-based Efficient Self-Supervised Adaptation for visual foundation models. A técnica de treinamento VESSA baseia-se em um paradigma de auto-destilação, no qual é essencial ajustar cuidadosamente as cabeças de predição e utilizar técnicas de adaptação eficientes em parâmetros — caso contrário, o modelo pode esquecer rapidamente o conhecimento prévio. VESSA se beneficia significativamente de observações de objetos em diferentes quadros de vídeo, aprendendo de forma eficiente a robustez frente a variações nas condições de captura, sem necessidade de rótulos. Por meio de experimentos abrangentes com três modelos fundacionais de visão em dois conjuntos de dados, VESSA demonstra melhorias consistentes em tarefas de classificação, superando os modelos base e métodos anteriores de adaptação. Os conjuntos de dados utilizados nos experimentos foram CO3D e MVImageNet, e os modelos fundationais visuais avaliados incluem DINO, DINOv2 e TIPS.
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.description.sponsorshipOutra Agência
dc.identifier.urihttps://hdl.handle.net/1843/1611
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso aberto
dc.rightsCC0 1.0 Universalen
dc.rights.urihttp://creativecommons.org/publicdomain/zero/1.0/
dc.subjectComputação – Teses
dc.subjectVisão por computador – Teses
dc.subjectProcessamento de imagens – Teses
dc.subject.otherVision foundation models
dc.subject.otherSelf-supervised fine-tuning
dc.subject.otherVideo-based adaptation
dc.subject.otherParameter-efficient tuning
dc.titleVESSA: Video-based Efficient Self-Supervised Adaptation for visual foundation models
dc.title.alternativeVESSA: Adaptação Autossupervisionada Eficiente Baseada em Vídeo para modelos de base visual
dc.typeDissertação de mestrado
local.contributor.advisor-co1André Araújo
local.contributor.advisor-co1IDhttps://scholar.google.com/citations?user=_ASUnDcAAAAJ&hl=en
local.contributor.advisor1William Robson Schwartz
local.contributor.advisor1Latteshttp://lattes.cnpq.br/0704592200063682
local.contributor.referee1Pedro Olmo Stancioli Vaz de Melo
local.contributor.referee1David Menotti Gomes
local.creator.IDhttps://scholar.google.com/citations?user=kG1r_84AAAAJ&hl=pt-BR
local.creator.Latteshttp://lattes.cnpq.br/3610168177845458
local.identifier.orcidhttps://orcid.org/0009-0006-7717-1176
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação
local.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
thesis_jesimonbarreto_finalversion.pdf
Tamanho:
4.28 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Item-specific license agreed to upon submission
Descrição: