Optimizing response time in large scale similarity searches

Rafael Martins de Souza

Optimizing response time in large scale similarity searches

dc.creator	Rafael Martins de Souza
dc.date.accessioned	2021-10-18T02:03:48Z
dc.date.accessioned	2025-09-09T00:46:54Z
dc.date.available	2021-10-18T02:03:48Z
dc.date.issued	2020-03-13
dc.description.abstract	Similarity search is a core operation found in several online multimedia services. These services have to handle very large databases, while, at the same time, they must min imize the query response times observed by users. This is especially complex because those services deal with fluctuating query workloads (rates). Consequently, they must adapt at run-time to minimize the response times as the load varies. In this dissertation, we address the aforementioned challenges with a distributed memory parallelization of the product quantization nearest neighbor search, also known as IVFADC, for hybrid CPU-GPU machines. Our parallel IVFADC also implements an out-of-core scheme to use the GPU for databases in which the index does not fit in its memory, which is crucial for searching in very large databases. The careful use of CPU and GPU with work-stealing led to an average reduction of the response time of 1.6× as com pared to using the GPU only. Also, our approach to adapt the system to fluctuating loads, called Dynamic Query Processing Policy (DQPP), attained an average response time reduction of 7× vs. the greedy policy. Finally, in all settings, the system has been shown to attain high query processing rates and near-linear scalability. We have executed our system in an environment with up to 256 NVIDIA V100 GPUs and a database of 256 billion SIFT features vectors
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.identifier.uri	https://hdl.handle.net/1843/38399
dc.language	eng
dc.publisher	Universidade Federal de Minas Gerais
dc.rights	Acesso Aberto
dc.subject	Computação – Teses
dc.subject	Computação distribuída – Teses
dc.subject	Busca por similaridade – Teses
dc.subject.other	Computation
dc.subject.other	Distributed Systems
dc.subject.other	Similarity Search
dc.title	Optimizing response time in large scale similarity searches
dc.title.alternative	Otimizando tempo de resposta em buscas por similaridade em larga escala
dc.type	Dissertação de mestrado
local.contributor.advisor-co1	George Luiz Medeiros Teodoro
local.contributor.advisor1	Renato Antônio Celso Ferreira
local.contributor.advisor1Lattes	http://lattes.cnpq.br/3446817929796674
local.contributor.referee1	Wagner Meira Júnior
local.contributor.referee1	William Robson Schwartz
local.contributor.referee1	Eduardo Alves do Valle Junior
local.creator.Lattes	http://lattes.cnpq.br/0356116906670806
local.description.resumo	Busca por similaridade é uma operação fundamental encontrada em serviços de multimídia online. Estes serviços precisam lidar com bases de dados muito grandes, enquanto, ao mesmo tempo, eles tem que minimizar o tempo de resposta observado por seus usuários. Isto é especialmente complexo porque esses serviços lidam com taxa de consultas variáveis. Consequentemente, eles precisam se adaptar durante o tempo de execução para minimizar o tempo de resposta a medida que a taxa de consultas varia. Nesta dissertação, nós abordamos os desafios mencionados anteriormente com a paralelização, em memória distribuída, da busca por vizinhos mais próximos com quantização em produto, também conhecida como IVFADC, para máquinas híbridas com CPU e GPU. Nosso IVFADC paralelo também implementa um mecanismo de execução out-of-core, para permitir que a GPU processe bases de dados que não cabem na memória, o que é crucial para realizar buscas em base de dados muito grandes. O uso de CPU com GPU com roubo de trabalho gerou uma redução média no tempo de resposta de 1.6× quando comparado a usar a GPU somente. Inclusive, a nossa abordagem para adaptar o sistema para taxa de consultas variáveis, chamada de Dynamic Query Processing Policy (DQPP), alcançou uma redução média no tempo de resposta de 7× vs a política gulosa. Finalmente, em todas as configurações, o sistema se mostrou capaz de alcançar altas taxas de processamento de consultas e escalabilidade quase linear. Nós executamos o sistema em um ambiente com até 256 NVIDIA V100 GPUs, e uma base de dados de 256 bilhões de vetores de características SIFT
local.publisher.country	Brasil
local.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initials	UFMG
local.publisher.program	Programa de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Dissertacao.pdf
Tamanho:: 8.48 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Plain Text
Descrição:

Baixar

Coleções

Pós-Graduação em Ciência da Computação - Dissertações