Representações de características visuais de baixo custo para recuperação de imagens

Ramon Figueiredo Pessoa

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUBD-AARJ47

Type:	Dissertação de Mestrado
Title:	Representações de características visuais de baixo custo para recuperação de imagens
Authors:	Ramon Figueiredo Pessoa
First Advisor:	Jefersson Alex dos Santos
First Co-advisor:	William Robson Schwartz
First Referee:	Alexei Manso Correa Machado
Second Referee:	Daniel Carlos Guimarães Pedronette
Third Referee:	Erickson Rangel do Nascimento
Abstract:	Busca por Conteúdo Visual em dispositivos Móveis (BCVM) é uma nova área de pesquisa em Recuperação de Imagem por Conteúdo (RIC), que oferece os serviços de busca e recuperação de informação visual especificamente para dispositivos móveis. Os principais desafios em Busca por Conteúdo Visual em dispositivos Móveis (BCVM)incluem variações nas condições de captura de imagem, como iluminação diferente, mudanças de escala e ângulo de visão, limitações da bateria e alto custo de rede incorridos pela transmissão de dados.O objetivo principal deste trabalho é a comparação de técnicas eficientes e eficazes para extração de características (features) em dispositivos móveis a fim de recuperar imagens principalmente em smartphones. Alcançamos nosso objetivo comparando e propondo técnicas para compressão de vetor de característica de imagens e representaçãode nível médio (bag of words). Algumas abordagens reduzem o consumo de energia em dispositivos móveis porque elas enviam vetores de características mais compactos a serem processadas no lado do servidor. Uma série de experimentos também foram realizados para avaliar aspectos de eficácia, eficiência e compacidade de características extraídas de imagens com o objetivo de realizar recuperação de imagens por conteúdo em dispositivos móveis. Neste caso, o usuário decide a melhor configuração considerando o triplo trade-off sobre eficácia, eficiência, e compacidade de característicasvisuais. Desse modo, abordamos duas questões de pesquisa, a fim de investigar e propor soluções efetivas para a recuperação de imagens em dispositivos móveis: 1) representação de baixo custo para a recuperação de imagens por conteúdo visual em dispositivos móveis e 2) extração de características visuais com informação espacial. Em primeiro lugar, analisamos o uso de descritores binários usando representação de nível médio e descritores globais (cor, textura e forma) no contexto de recuperação de imagem em dispositivos móveis, bem como o uso de técnicas de compressão de características de imagem. Nós testamos vinte representações de nível médio de descritores de binários (cinco descritores binários quatro estratégias de bag of words: os descritores BinBoost, BRIEF, BRISK, FREAK, ORB com bag of words usando hard assignment com average pooling ou bag of words usando hard assignment com maximum pooling ou bag of words usando soft assignment com average pooling ou bag of words usando soft assignment com maximum pooling), dez descritores de cor, cinco descritores de textura e dois descritores de forma. Nós também analisamos o impacto de usar amostragem densa e amostragem esparsa (keypoints) para calcular descritores usando bag of words (a amostragem densa é a melhor opção). A segunda questão de pesquisa refere-se a investigação do problema de extrair informações espaciais de imagens para melhorar a qualidade da representação de imagem em dispositivos móveis, que podem ser cruciais para distinguir tipos de objetos e cenas. Os métodos tradicionais de agrupamento (bag of words) geralmente descartam a configuração espacial na imagem. Nós propomos duas abordagens de spatial bag of visual words chamadas BOBGrid (spatial Bag Of BIC Grid) e BOBSlic (spatial Bag Of Slic) e comparamos elas com o nosso baseline de spatial bag of visual words chamado WSA (visual Word Spatial Arrangement) e com uma melhoria do bag of visual words tradicional chamada BOSSANova (Bag Of Statistical Sampling Analysis). Os experimentos realizados indicam que os descritores BIC (Border/Interior Pixel Classification um descritor de cor) and DEOBSM (bag of words usando amostragem densa, descritor ORB, Soft assignment e Maximum pooling) são as melhores opçõesconsiderando o triplo trade-off sobre eficácia, eficiência, e compacidade de características visuais. Análises estatísticas mostram que BOBGrid e BOBSlic são melhores do que nosso baseline WSA no conjunto de dados WANG. BOBGrid e BOBSlic também mostraram precisão maior em comparação ao BOSSANova no conjunto de dados WANG.
Abstract:	Mobile Visual Search (MVS) is a new research area in Content-Based Image retrieval (CBIR) which provides the services of search and retrieval of visual information specifically for mobile devices. The main challenges on mobile visual search include variations in image capturing conditions like different illumination, changes of scale and view angle, limitations of battery and high network cost incurred by data transmission. The main purpose of this work is the comparison of efficient and effective techniques for feature extraction on mobile devices in order to retrieve images especially on smartphones. We achieve our goal by comparing and proposing techniques to feature vector compression and mid-level representation (bag of words). Some approaches reduce energy consumption in mobile devices because they send more compact featurevector to be processed on the server side. A series of experiments were also conducted to evaluate aspects of effectiveness, efficiency and compactness of extracted features of images in order to perform content-based image retrieval on mobile devices. In this case, the user decides the best triple trade-off configuration regarding effectiveness,efficiency, and compactness of visual features. Therefore, we addressed two research issues in order to investigate and to propose effective solutions for image retrieval on mobile devices: 1) low-cost representation for mobile image search and 2) spatial visual feature extraction. First, we analyze the use of binary descriptors using mid-level representation and global descriptors (color, texture, and shape) in image retrieval context on mobile devices, as well as, image features compression techniques. We have tested twenty midlevel representations of binary descriptors (five binary descriptors four bag of words strategies: BinBoost, BRIEF, BRISK, FREAK, ORB descriptors with bag of words using hard assignment with average pooling or bag of words using hard assignment with maximum pooling or bag of words using soft assignment with average pooling or bag of words using soft assignment with maximum pooling), ten color descriptors, fivetexture descriptors and two shape descriptors. We also analyze the impact of dense sampling and sparse sampling to compute descriptors using bags of words strategies (dense sampling is the best option).The second research issue refers to the problem of extracting spatial information on images to improve the quality of image representation on mobile devices, which could be crucial to distinguish types of objects and scenes. The traditional pooling methods usually discard the spatial configuration for visual words in the image. We propose two approaches of spatial bags of visual words called BOBGrid (spatial Bag Of BICGrid) and BOBSlic (spatial Bag Of Slic) and compare them with our baseline called WSA (visual Word Spatial Arrangement) and with an improvement of the traditional bag of visual words called BOSSANova (Bag Of Statistical Sampling Analysis). The experiments indicate that the descriptors BIC (Border/Interior Pixel Classification a color descriptor) and DEOBSM (bag of words using DEnse sampling, ORB descriptor, Soft assignment and Maximum pooling) are the best options consideringthe trade-off configuration regarding effectiveness, efficiency, and compactness of visual features. In statistical analyzes, BOBGrid and BOBSlic are better than our baseline WSA in the WANG dataset. BOBGrid and BOBSlic also show higher precision compared to the BOSSANova in the WANG dataset.
Subject:	Imagens Interpretação Visão por computador Computação Processamento de imagens Técnicas digitais Sistemas de recuperação da informação Reconhecimento de padrões Compressão de imagens
language:	Inglês
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/BUBD-AARJ47
Issue Date:	18-Dec-2015
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
ramonfigueiredopessoa.pdf		26.23 MB	Adobe PDF	View/Open

Show full item record