Partial least squares: a deep space odyssey

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Tese de doutorado

Título alternativo

Primeiro orientador

Membros da banca

Moacir Antonelli Ponti
Hélio Pedrini
Luiz Eduardo Soares de Oliveira
João Paulo Papa

Resumo

Modern visual pattern recognition models are predominantly based on convolutional networks since they have led to a series of breakthroughs in different tasks. The reason for these achievements is the development of larger architectures as well as the combination of features from multiple layers of the convolutional network. Such models, however, are computationally expensive, hindering applicability on low-power and resource-constrained systems. To handle these problems, we propose three strategies. The first removes unimportant structures (neurons or layers) of convolutional networks, reducing their computational cost. The second inserts structures to design convolutional networks automatically, enabling us to build high-performance architectures. The third combines multiple layers of convolutional networks, enhancing data representation at negligible additional cost. These strategies are based on Partial Least Squares, a discriminative dimensionality reduction technique. We show that Partial Least Squares is an efficient and effective tool for removing, inserting, and combining structures of convolutional networks. Despite the positive results, Partial Least Squares is infeasible on large datasets since it requires all the data to be in memory in advance, which is often impractical due to hardware limitations. To handle this limitation, we propose a fourth approach, a discriminative and low-complexity incremental Partial Least Squares that learns a compact representation of the data using a single sample at a time, thus enabling applicability on large datasets. We assess the effectiveness of our approaches on several convolutional architectures and supervised computer vision tasks, which include image classification, face verification and activity recognition. Our approaches reduce the resource overhead of both convolutional networks and Partial Least Squares, promoting energy- and hardware-friendly models for the academy and industry scenarios. Compared to state-of-the-art methods for the same purpose, we obtain one of the best trade-os between predictive ability and computational cost.

Abstract

Modelos modernos de reconhecimento de padrões visuais são predominantemente baseados em redes convolucionais uma vez que elas têm levado a uma série de avanços em diferentes tarefas. A razão para estes resultados é o desenvolvimento de arquiteturas maiores e a combinação de informações de diferentes camadas da arquitetura. Tais modelos, entretanto, são computacionalmente custosos dificultando aplicabilidade em sistemas com recursos limitados. Para lidar com esses problemas, propomos três estratégias. A primeira remove estruturas (neurônios e camadas) das redes convolucionais, reduzindo seu custo computacional. A segunda insere estruturas para desenvolver redes automaticamente, permitindo construir arquiteturas de alta performance. A terceira combina múltiplas camadas das arquiteturas, aprimorando a representação dos dados com custo adicional irrelevante. Estas estratégias são baseadas no Partial Least Squares (PLS), uma técnica de redução de dimensionalidade. Mostramos que o PLS é uma ferramenta eficiente e eficaz para remover, inserir e combinar estruturas de redes convolucionais. Apesar dos resultados positivos, o PLS é inviável a grandes conjuntos de dados como ele requer que todos os dados estejam na memória, o que é frequentemente impraticável devido a limitações de hardware. Para contornar tal limitação, propomos uma quarta abordagem, um PLS incremental discriminativo e de baixa complexidade que aprende uma representação compacta dos dados usando uma única amostra por vez, permitindo aplicabilidade em grandes conjuntos de dados. Avaliamos a efetividade das abordagens em várias arquiteturas convolucionais e tarefas supervisionadas de visão computacional, que incluem classicação de imagens, verificação de faces e reconhecimento de atividades. Nossas abordagens reduzem a sobrecarga de recursos computacionais das redes convolucionais e do PLS, promovendo modelos eficientes em termos de energia e hardware para cenários acadêmicos e industriais. Em comparação com métodos de última geração para o mesmo propósito, obtemos um dos melhores compromissos entre capacidade preditiva e custo computacional.

Assunto

Computação – Teses, Visão por computador – Teses, Teoria da estimativa – Teses, Reconhecimento de Padrões – Teses

Palavras-chave

Computer Vision, Deep Learning, Pattern Recognition

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por