Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/38363
Type: Dissertação
Title: On modeling context from objects with a Long Short-Term Memory for indoor scene recognition
Other Titles: Modelando contexto a partir de objetos com uma Long Short-Term Memory (LSTM) para reconhecimento de ambientes internos.
Authors: Camila Laranjeira da Silva
First Advisor: Erickson Rangel do Nascimento
First Co-advisor: Anísio Mendes Lacerda
First Referee: Wagner Meira Júnior
Second Referee: Renato José Martins
Abstract: Automatic scene recognition is still regarded as an open challenge, even though there are reports of outperforming human accuracy. This is specially true for indoor scenes, since they can be well represented by their composing objects, which is highly variable information. Objects vary in angle, size, texture, besides being often partially occluded on crowded scenes. Even though Convolutional Neural Networks showed remarkable performance for most image-related problems, for indoor scenes the top performances were attributed to approaches that added object-level information to the methodology, modeling their intricate relationship. Knowing that Recurrent Neural Networks were designed to model structure from a given sequence of elements, only recently researchers started exploiting its advantages applied to the problem of scene recognition. Even though such works are usually below the state of the art performance, there is still plenty of room to unravel the full potential of recurrent methodologies. Thus, this work proposes representing an image as a sequence of object-level information, extracting highly semantic features from models pre-trained on an object-centric dataset, in order to feed a bidirectional Long Short-Term Memory network trained for scene classification. We perform a Many-to-Many training approach, such that each input outputs a corresponding scene prediction, allowing us to use each individual prediction to boost recognition with a weighted voting approach. To the best of our knowledge, our sequence representation, as well as our late fusion of predictions was little pursued by methods from the literature based on recurrent approaches for scene recognition. We evaluated our proposal on three widely known datasets for scene recognition: Scene15, MIT67 and SUN397, outperforming recurrent-based methods on MIT67, a dataset entirely dedicated to the problem of indoor scenes, while the others, which mix indoor and outdoor environments presented as a greater challenge for our approach. However, we were able to improve performance on all datasets over the most successful methods on the literature by pairing our work to a few of them in an ensemble of classifiers. Meaning a joint strategy with our method was beneficial for the task of scene classification.
Abstract: O reconhecimento automático de cenas ainda é encarado como um desafio aberto na literatura, apesar de alguns trabalhos reportarem métricas de performance superior às dos seres humanos. Isso é especialmente válido para ambientes internos visto que eles podem ser bem reresentados pelos seus objetos, cuja variabilidade é muito alta. Objetos variam em ângulo, tamanho, textura, além de oclusões serem mais frequentes em cenas com muitos objetos. Apesar das Redes Neurais Convolutionais apresentarem uma performance excepcional para a maioria de problemas relacionados a imagens, para ambientes internos as melhores performances são atribuídas a abordagens que adicionam informação a nível de objeto, modelando a correlação entre eles. Sabendo que Redes Neurais Recorrentes foram projetadas para modelar a estrutura de uma dada sequência, recentemente surgiram pesquisas explorando suas vantagens aplicadas ao problema de reconhecimento de cenas. Apesar desses trabalhos comumente apresentarem resultados inferiores ao estado da arte, ainda há muito espaço para desvendar o potencial total de metodologias recorrentes. Portanto, este trabalho propõe representar uma imagem como uma sequência de partes de objeto, extraindo características semânticas de modelos pré treinados em grandes datasets de objetos, afim de alimentar uma rede Long Short-Term Memory bidirecional treinada para classificação de cenas. Nossa proposta de treinamento baseia-se na abordagem Muitos-Para-Muitos, tal que cada entrada possui uma predição de cena correspondente, permitindo o uso de cada predição individual para aumentar a qualidade da classificação através de uma votação ponderada das saídas. Nossa representação em forma de sequência, bem como a fusão de predições ao final ainda é pouco explorada por métodos da literatura baseado em abordagens recorrentes para reconhecimento de cenas. Nossa proposta foi avaliada em três datasets: Scene15, MIT67 e SUN397, superando o desempenho de todas as metodologias recorrentes no MIT67, um dataset completamente dedicado ao problema de ambientes internos. Enquanto os outros datasets, que misturam ambientes internos e externos, apresentaram um desafio maior para a nossa abordagem. No entanto, nós aprimoramos a performance em todos os datasets sobre os métodos mais bem sucedidos da literatura, pareando o nosso método com cada um deles através da composição de um ensemble de classificadores. Em outras palavras, uma estratégia conjunta com o nosso método se mostrou benéfica para a tarefa de reconhecimento de cenas.
Subject: Computação – Teses
Inteligência artificial – Teses
Reconhecimmento de imagens – Teses
Redes neurais (Computação) – Teses
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program: Programa de Pós-Graduação em Ciência da Computação
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/38363
Issue Date: 28-May-2019
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
laranjeira_bilstmcontext_dissertation_text.pdf5.44 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.