From robustness to efficiency: deformation-aware and efficient local feature extraction for images
| dc.creator | Guilherme Augusto Potje | |
| dc.date.accessioned | 2025-07-11T17:20:31Z | |
| dc.date.accessioned | 2025-09-09T00:44:36Z | |
| dc.date.available | 2025-07-11T17:20:31Z | |
| dc.date.issued | 2024-12-13 | |
| dc.description.abstract | A correspondência visual e a percepção geométrica são aspectos fundamentais de sistemas de visão para a sobrevivência no reino animal. Não é surpreendente que várias tarefas relevantes, como navegação autônoma, reconstrução 3D e registro de imagens, que dependem de características de imagem de baixo nível, continuem a servir como base para tarefas mais avançadas de Visão Computacional. Nesse contexto, descritores locais de imagem fornecem representações compactas e eficientes, operando sobre um conjunto esparso de pontos confiáveis e bem localizados no mundo físico. No entanto, os métodos existentes na literatura oferecem, no máximo, invariância aproximada a transformações afins de imagem, ignorando superfícies deformáveis. Nesta tese, avançamos nessa direção ao estudar e desenvolver novas técnicas para o cálculo de características locais em imagens, considerando aspectos de invariância a deformações e eficiência computacional. Inicialmente, exploramos a ciência de deformações no estágio de descrição, baseando nossa hipótese em restrições geodésicas das superfícies em torno de de interesse, utilizando imagens RGB-D para modelagem de superfície. Em seguida, expandimos essas ideias para o paradigma do aprendizado profundo, propondo novos componentes que dotam descritores modernos e detectores de pontos de interesse a capacidade de modelar as deformações explicitamente, eliminando a necessidade de informações de profundidade. Além dos métodos propostos, contribuímos com um novo conjunto de dados real, composto por imagens RGB-D de objetos sujeitos a deformações não rígidas (como camisas, roupas, pinturas e bolsas) com correspondências anotadas a nível de pixel, e um simulador capaz de gerar, de forma eficiente e abundante, dados sintéticos realistas para a avaliação de métodos de correspondência não rígida. Ao longo de diversos experimentos, demonstramos a importância de considerar a deformação na construção dos descritores, não apenas em métricas de correspondência, mas também em três aplicações práticas: recuperação de imagem, rastreamento não rígido e registro de superfícies 3D. Simultaneamente, abordamos um dos maiores desafios dos atuais métodos de descrição asseados em aprendizado profundo: o custo de processamento. Como contribuição final, apresentamos um detector de pontos de interesse e um extrator de características locais que oferece o melhor desempenho em termos de equilíbrio entre eficiência computacional e acurácia frente ao estado da arte. | |
| dc.description.sponsorship | CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior | |
| dc.identifier.uri | https://hdl.handle.net/1843/83506 | |
| dc.language | eng | |
| dc.publisher | Universidade Federal de Minas Gerais | |
| dc.rights | Acesso Aberto | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/3.0/pt/ | |
| dc.subject | Computação – Teses | |
| dc.subject | Visão por computador – Teses | |
| dc.subject | Processamento de imagens – Teses | |
| dc.subject | Mapeamento digital - Teses | |
| dc.subject.other | Local image descriptors | |
| dc.subject.other | Geodesic mapping | |
| dc.subject.other | Descriptor learning | |
| dc.subject.other | Rgb-d images | |
| dc.subject.other | Non-rigid correspondence | |
| dc.subject.other | Deformable description | |
| dc.subject.other | Deformation-awareness | |
| dc.title | From robustness to efficiency: deformation-aware and efficient local feature extraction for images | |
| dc.title.alternative | Da robustez à eficiência: extração de características locais eficiente e com consciência de deformação para imagens | |
| dc.type | Tese de doutorado | |
| local.contributor.advisor-co1 | Renato José Martins | |
| local.contributor.advisor1 | Erickson Rangel do Nascimento | |
| local.contributor.advisor1Lattes | http://lattes.cnpq.br/6900352659470721 | |
| local.contributor.referee1 | Cláudio Rosito Jung | |
| local.contributor.referee1 | Mario Fernando Montenegro Campos | |
| local.contributor.referee1 | André Araújo | |
| local.contributor.referee1 | Vincent Lepetit | |
| local.creator.Lattes | http://lattes.cnpq.br/0541732948942617 | |
| local.description.resumo | Visual correspondence and geometric perception are critical for living beings in the animal kingdom, where vision is essential for survival. Similarly to a biological vision system, modern solutions for autonomous navigation, 3D reconstruction and image registration rely on local image cues for solving higher-level Computer Vision problems. In this context, local image descriptors efficiently provide a compact representation and estimates of point-wise correspondences between images, as they work with a sparse set of reliable and well-localized points in the physical world. Most of the existing handcrafted and learning-based methods are still at best approximately invariant to affine image transformations, disregarding deformable surfaces. In this dissertation, we take one step further by studying and developing novel techniques to compute local features from images, from the perspective of invariance and also speed. First, we explore deformation-awareness in the description stage, grounding our hypothesis based on geodesic constraints of the surfaces around keypoints, relying on RGB-D images for surface modeling. Then, we further expand the ideas to the deep learning paradigm, where novel components are proposed to endow modern learned local feature descriptors and keypoint detectors with deformation awareness, removing the requirement of depth information. In addition to the methods, to evaluate the current state-of-the-art on image correspondence based on sparse keypoints, we release to the community a new real-world dataset of RGB-D images of several different objects (shirts, cloths, paintings, bags) subjected to non-rigid deformations, alongside annotated ground-truth correspondences, and a physics simulation software capable of producing abundant, plausible synthetic ground-truth for both correspondences and geometry of deforming surfaces inexpensively. Throughout several experiments, we demonstrate the importance deformation-awareness brings to the performance of descriptors not only on low-level matching metrics but also on three real-world applications: image retrieval, non-rigid tracking and 3D surface registration. Concurrently, we address a major challenge in current deep learning-based local features: processing cost. As a final contribution, we introduce a general-purpose keypoint detector and local feature extractor that provides state-of-the-art results in terms of the trade-off between computation and accuracy. | |
| local.identifier.orcid | https://orcid.org/0000-0003-2577-2886 | |
| local.publisher.country | Brasil | |
| local.publisher.department | ICEX - INSTITUTO DE CIÊNCIAS EXATAS | |
| local.publisher.initials | UFMG | |
| local.publisher.program | Programa de Pós-Graduação em Ciência da Computação |