From robustness to efficiency: deformation-aware and efficient local feature extraction for images

Guilherme Augusto Potje

From robustness to efficiency: deformation-aware and efficient local feature extraction for images

dc.creator	Guilherme Augusto Potje
dc.date.accessioned	2025-07-11T17:20:31Z
dc.date.accessioned	2025-09-09T00:44:36Z
dc.date.available	2025-07-11T17:20:31Z
dc.date.issued	2024-12-13
dc.description.abstract	A correspondência visual e a percepção geométrica são aspectos fundamentais de sistemas de visão para a sobrevivência no reino animal. Não é surpreendente que várias tarefas relevantes, como navegação autônoma, reconstrução 3D e registro de imagens, que dependem de características de imagem de baixo nível, continuem a servir como base para tarefas mais avançadas de Visão Computacional. Nesse contexto, descritores locais de imagem fornecem representações compactas e eficientes, operando sobre um conjunto esparso de pontos confiáveis e bem localizados no mundo físico. No entanto, os métodos existentes na literatura oferecem, no máximo, invariância aproximada a transformações afins de imagem, ignorando superfícies deformáveis. Nesta tese, avançamos nessa direção ao estudar e desenvolver novas técnicas para o cálculo de características locais em imagens, considerando aspectos de invariância a deformações e eficiência computacional. Inicialmente, exploramos a ciência de deformações no estágio de descrição, baseando nossa hipótese em restrições geodésicas das superfícies em torno de de interesse, utilizando imagens RGB-D para modelagem de superfície. Em seguida, expandimos essas ideias para o paradigma do aprendizado profundo, propondo novos componentes que dotam descritores modernos e detectores de pontos de interesse a capacidade de modelar as deformações explicitamente, eliminando a necessidade de informações de profundidade. Além dos métodos propostos, contribuímos com um novo conjunto de dados real, composto por imagens RGB-D de objetos sujeitos a deformações não rígidas (como camisas, roupas, pinturas e bolsas) com correspondências anotadas a nível de pixel, e um simulador capaz de gerar, de forma eficiente e abundante, dados sintéticos realistas para a avaliação de métodos de correspondência não rígida. Ao longo de diversos experimentos, demonstramos a importância de considerar a deformação na construção dos descritores, não apenas em métricas de correspondência, mas também em três aplicações práticas: recuperação de imagem, rastreamento não rígido e registro de superfícies 3D. Simultaneamente, abordamos um dos maiores desafios dos atuais métodos de descrição asseados em aprendizado profundo: o custo de processamento. Como contribuição final, apresentamos um detector de pontos de interesse e um extrator de características locais que oferece o melhor desempenho em termos de equilíbrio entre eficiência computacional e acurácia frente ao estado da arte.
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.identifier.uri	https://hdl.handle.net/1843/83506
dc.language	eng
dc.publisher	Universidade Federal de Minas Gerais
dc.rights	Acesso Aberto
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/3.0/pt/
dc.subject	Computação – Teses
dc.subject	Visão por computador – Teses
dc.subject	Processamento de imagens – Teses
dc.subject	Mapeamento digital - Teses
dc.subject.other	Local image descriptors
dc.subject.other	Geodesic mapping
dc.subject.other	Descriptor learning
dc.subject.other	Rgb-d images
dc.subject.other	Non-rigid correspondence
dc.subject.other	Deformable description
dc.subject.other	Deformation-awareness
dc.title	From robustness to efficiency: deformation-aware and efficient local feature extraction for images
dc.title.alternative	Da robustez à eficiência: extração de características locais eficiente e com consciência de deformação para imagens
dc.type	Tese de doutorado
local.contributor.advisor-co1	Renato José Martins
local.contributor.advisor1	Erickson Rangel do Nascimento
local.contributor.advisor1Lattes	http://lattes.cnpq.br/6900352659470721
local.contributor.referee1	Cláudio Rosito Jung
local.contributor.referee1	Mario Fernando Montenegro Campos
local.contributor.referee1	André Araújo
local.contributor.referee1	Vincent Lepetit
local.creator.Lattes	http://lattes.cnpq.br/0541732948942617
local.description.resumo	Visual correspondence and geometric perception are critical for living beings in the animal kingdom, where vision is essential for survival. Similarly to a biological vision system, modern solutions for autonomous navigation, 3D reconstruction and image registration rely on local image cues for solving higher-level Computer Vision problems. In this context, local image descriptors efficiently provide a compact representation and estimates of point-wise correspondences between images, as they work with a sparse set of reliable and well-localized points in the physical world. Most of the existing handcrafted and learning-based methods are still at best approximately invariant to affine image transformations, disregarding deformable surfaces. In this dissertation, we take one step further by studying and developing novel techniques to compute local features from images, from the perspective of invariance and also speed. First, we explore deformation-awareness in the description stage, grounding our hypothesis based on geodesic constraints of the surfaces around keypoints, relying on RGB-D images for surface modeling. Then, we further expand the ideas to the deep learning paradigm, where novel components are proposed to endow modern learned local feature descriptors and keypoint detectors with deformation awareness, removing the requirement of depth information. In addition to the methods, to evaluate the current state-of-the-art on image correspondence based on sparse keypoints, we release to the community a new real-world dataset of RGB-D images of several different objects (shirts, cloths, paintings, bags) subjected to non-rigid deformations, alongside annotated ground-truth correspondences, and a physics simulation software capable of producing abundant, plausible synthetic ground-truth for both correspondences and geometry of deforming surfaces inexpensively. Throughout several experiments, we demonstrate the importance deformation-awareness brings to the performance of descriptors not only on low-level matching metrics but also on three real-world applications: image retrieval, non-rigid tracking and 3D surface registration. Concurrently, we address a major challenge in current deep learning-based local features: processing cost. As a final contribution, we introduce a general-purpose keypoint detector and local feature extractor that provides state-of-the-art results in terms of the trade-off between computation and accuracy.
local.identifier.orcid	https://orcid.org/0000-0003-2577-2886
local.publisher.country	Brasil
local.publisher.department	ICEX - INSTITUTO DE CIÊNCIAS EXATAS
local.publisher.initials	UFMG
local.publisher.program	Programa de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Tese_PhD_Potje_Final_Biblioteca.pdf
Tamanho:: 66.17 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Plain Text
Descrição:

Baixar

Coleções

Pós-Graduação em Ciência da Computação - Teses