Abordagens de aprendizado estatístico e profundo para os problemas de decomposição e anotação de peças de roupas em fotografias de moda

Keiller Nogueira

Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/ESBF-9WVP83

Tipo:	Dissertação de Mestrado
Título:	Abordagens de aprendizado estatístico e profundo para os problemas de decomposição e anotação de peças de roupas em fotografias de moda
Autor(es):	Keiller Nogueira
primer Tutor:	Adriano Alonso Veloso
primer Co-tutor:	Jefersson Alex dos Santos
primer miembro del tribunal :	Nivio Ziviani
Segundo miembro del tribunal:	Renato Antonio Celso Ferreira
Tercer miembro del tribunal:	Jefersson Alex dos Santos
Resumen:	Esta dissertação apresenta algoritmos eficientes para anotar e decompor peças de roupas a partir de dados provindos de redes sociais, como Facebook e Instagram. Anotação de roupas pode ser informalmente descrito como reconhecer, o mais precisamente possível, cada peça do traje que aparece em uma imagem. A decomposição, por sua vez, procura além de anotar as peças de roupa, também localizá-las na imagem. Tais tarefas tem papel importante em áreas como vigilância, reconhecimento de ações, busca por pessoas, sistemas de recomendação e de comércio eletrônico. Estes problemas trazem desafios interessantes vinculados à visão computacional e ao reconhecimento de padrões como, por exemplo, distinguir roupas visualmente parecidas mas conceitualmente diferentes, ou identificar um padrão para uma peça específica, já que esta pode ter diferentes cores, formas, texturas e aparência. Inicialmente, o problema de anotação de roupas foi analisado considerando métodos estatísticos de aprendizado de máquina. Para isso, uma extensa avaliação das técnicas de extração de características visuais, incluindo descritores locais e globais, foi feita. Em seguida, formulamos a tarefa de anotação como um problema de classificação multi-modal e multi-rótulo, isto é: (i) conteúdo visual e textual (tags relacionadas às imagens) estão disponíveis para os classificadores, (ii) os classificadores precisam predizer um conjunto de rótulos (um conjunto de peças de roupas) e, (iii) a decisão sobre quais os rótulos devem ser atribuídas à imagem ocorre através de uma função, construída a partir de um conjunto de instâncias. Com esta configuração, propomos duas abordagens: (i) a pontual, chamada neste trabalho de MMCA, que usa uma única imagem como entrada para o classificador, e (ii) a pareada, chamada de M3CA, que usa pares de imagens como entrada para seus classificadores. Comparamos ambos os métodos para definir qual o melhor para o problema em questão. Para cada uma, aplicamos um algoritmo de classificação que usa regras de associação para construir modelos de reconhecimento que combina informações visuais e textuais. Também usamos uma estratégia de minimização de entropia para encontrar quais rótulosdevem ser associados à cada imagem. Realizamos uma avaliação sistemática dos métodos propostos usando fotos coletadas de duas grandes mídias sociais relacionadas à moda, \url{pose.com} e \url{chictopia.com}. Os resultados mostram que os métodos propostos fornecem melhorias quando comparados a algoritmos popularemente utilizados que variam entre 20\% to 30\% em termos de acurácia.Em um segundo momento, analisamos o problema de decomposição de imagens utilizando aprendizado profundo. Propomos um modelo de redes de convolução utilizando uma estratégia multi-escala. Mais especificamente, empregamos diferentes níveis de redes onde cada nível processa imagens de dimensões diferentes, ou seja, a cada nível as imagens são decompostas em pedaços menores, possibilitando assim com que a rede classifique pequenos detalhes. No primeiro nível, imagens com maiores dimensões são processadas em uma rede mais robusta. As imagens com entropia baixa já adquirem sua classificação neste nível, enquanto as imagens com entropia alta (não classificadas perfeitamente) são subdivididas e passam para o segundo nível.No terceiro patamar, as imagens não classificadas no segundo nível são novamente subdivididas em pedaços ainda menores e, enfim, classificadas. Ao final, teremos as classes de cada pedaço da imagem, e podemos recompo-la. Para avaliar esta abordagem, utilizamos um conjunto de imagens coletadas do site \url{chictopia.com}, e nossos experimentos mostram que nossa abordagem fornecem resultados promissores.
Abstract:	In this work, we present effective algorithms to automatically annotate and parse clothes from social media data, such as Facebook and Instagram. Clothing annotation can be informally stated as recognizing, as accurately as possible, each garment item that appears in a photo.Clothing parsing, in turn, locates and annotate each garment item in a photo. These tasks play important roles in several areas, including surveillance, action recognition, person search, recommender systems and e-commerce. They also pose interesting challenges for existing vision and recognition algorithms, such as distinguishing between similar but conceptually different types of clothes or identifying a pattern of a specific item, since it can have different colors, shapes, textures and appearance. Initially, the clothing annotation problem was analyzed considering statistical methods of machine learning. For this purpose, we perform an extensive evaluation of the visual feature extraction techniques, including global and local descriptors. Then, we formulate the annotation task as a multi-label and multi-modal classification problem (i) both image and textual content (i.e., tags related to the image) are available for learning classifiers, (ii) the classifiers must predict a set of labels (i.e., a set of garment items), and (iii) the decision on which labels to assign to the query photo comes from instances (or {\em bag} of instances) that are used to build a function, which separates labels that should be assigned to the query photo, from those that should not be assigned. Using this configuration, we propose two approaches: (i) the pointwise one, called MMCA, which uses a single image as input to the classifiers, and (ii) a multi-instance classification, called M3CA, also known as pairwise approach, that uses pair of images as input to the classifiers. We compare both approaches in order to define the best one for the problem. For both of them, we propose a classification algorithm that employs association rules in order to build a recognition model that combines textual and visual information. We also adopt an entropy-minimization strategy in order to find the best set of labels that should be assigned to the query photo. We conduct a systematic evaluation of the proposed algorithms using everyday photos collected from two major fashion-related social media, namely \url{pose.com} and \url{chictopia.com}. Our results show that the proposed approaches provide improvements when compared to popular first choice multi-label, multi-modal, multi-instance algorithms that range from 20\% to 30\% in terms of accuracy. In a second phase, we analyzed the clothing parsing problem using deep learning. We propose a multi-scale convolutional neural network model. Specifically, we use different network levels where each level processes images with different dimensions, i.e., after every level the images are decomposed into smaller patches, allowing the network to capture minimal details. In the first level, bigger images are processed in a robust network. Images with low entropy already get their final class in this level, while the others with high entropy (classification still undefined) are splitted into smaller patches and go to the next one. In the third and last level, images without final classification in the second level are again divided into even smaller patches and, finally, classified.At the end, we have a class associated with each patch of the image and we can recompose it. To evaluate this approach, we use a dataset crawled from \url{chictopia.com}. Our experiments shows that our proposed approach achieves promising results.
Asunto:	Computação Aprendizagem do computador
Idioma:	Inglês
Editor:	Universidade Federal de Minas Gerais
Sigla da Institución:	UFMG
Tipo de acceso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/ESBF-9WVP83
Fecha del documento:	23-feb-2015
Aparece en las colecciones:	Dissertações de Mestrado

archivos asociados a este elemento:

archivo	Descripción	Tamaño	Formato
keillernogueira.pdf		23.14 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo del elemento Visualizar estadísticas