On modeling context from objects with a Long Short-Term Memory for indoor scene recognition

dc.creatorCamila Laranjeira da Silva
dc.date.accessioned2021-10-14T00:14:45Z
dc.date.accessioned2025-09-09T01:22:36Z
dc.date.available2021-10-14T00:14:45Z
dc.date.issued2019-05-28
dc.description.abstractO reconhecimento automático de cenas ainda é encarado como um desafio aberto na literatura, apesar de alguns trabalhos reportarem métricas de performance superior às dos seres humanos. Isso é especialmente válido para ambientes internos visto que eles podem ser bem reresentados pelos seus objetos, cuja variabilidade é muito alta. Objetos variam em ângulo, tamanho, textura, além de oclusões serem mais frequentes em cenas com muitos objetos. Apesar das Redes Neurais Convolutionais apresentarem uma performance excepcional para a maioria de problemas relacionados a imagens, para ambientes internos as melhores performances são atribuídas a abordagens que adicionam informação a nível de objeto, modelando a correlação entre eles. Sabendo que Redes Neurais Recorrentes foram projetadas para modelar a estrutura de uma dada sequência, recentemente surgiram pesquisas explorando suas vantagens aplicadas ao problema de reconhecimento de cenas. Apesar desses trabalhos comumente apresentarem resultados inferiores ao estado da arte, ainda há muito espaço para desvendar o potencial total de metodologias recorrentes. Portanto, este trabalho propõe representar uma imagem como uma sequência de partes de objeto, extraindo características semânticas de modelos pré treinados em grandes datasets de objetos, afim de alimentar uma rede Long Short-Term Memory bidirecional treinada para classificação de cenas. Nossa proposta de treinamento baseia-se na abordagem Muitos-Para-Muitos, tal que cada entrada possui uma predição de cena correspondente, permitindo o uso de cada predição individual para aumentar a qualidade da classificação através de uma votação ponderada das saídas. Nossa representação em forma de sequência, bem como a fusão de predições ao final ainda é pouco explorada por métodos da literatura baseado em abordagens recorrentes para reconhecimento de cenas. Nossa proposta foi avaliada em três datasets: Scene15, MIT67 e SUN397, superando o desempenho de todas as metodologias recorrentes no MIT67, um dataset completamente dedicado ao problema de ambientes internos. Enquanto os outros datasets, que misturam ambientes internos e externos, apresentaram um desafio maior para a nossa abordagem. No entanto, nós aprimoramos a performance em todos os datasets sobre os métodos mais bem sucedidos da literatura, pareando o nosso método com cada um deles através da composição de um ensemble de classificadores. Em outras palavras, uma estratégia conjunta com o nosso método se mostrou benéfica para a tarefa de reconhecimento de cenas.
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.description.sponsorshipFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.identifier.urihttps://hdl.handle.net/1843/38363
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectComputação – Teses
dc.subjectInteligência artificial – Teses
dc.subjectReconhecimmento de imagens – Teses
dc.subjectRedes neurais (Computação) – Teses
dc.subject.otherComputer Science
dc.subject.otherArtificial Intelligence
dc.subject.otherImage Recognition
dc.subject.otherNeural Networks
dc.titleOn modeling context from objects with a Long Short-Term Memory for indoor scene recognition
dc.title.alternativeModelando contexto a partir de objetos com uma Long Short-Term Memory (LSTM) para reconhecimento de ambientes internos.
dc.typeDissertação de mestrado
local.contributor.advisor-co1Anísio Mendes Lacerda
local.contributor.advisor1Erickson Rangel do Nascimento
local.contributor.advisor1Latteshttp://lattes.cnpq.br/6900352659470721
local.contributor.referee1Wagner Meira Júnior
local.contributor.referee1Renato José Martins
local.creator.Latteshttp://lattes.cnpq.br/1641872523529515
local.description.resumoAutomatic scene recognition is still regarded as an open challenge, even though there are reports of outperforming human accuracy. This is specially true for indoor scenes, since they can be well represented by their composing objects, which is highly variable information. Objects vary in angle, size, texture, besides being often partially occluded on crowded scenes. Even though Convolutional Neural Networks showed remarkable performance for most image-related problems, for indoor scenes the top performances were attributed to approaches that added object-level information to the methodology, modeling their intricate relationship. Knowing that Recurrent Neural Networks were designed to model structure from a given sequence of elements, only recently researchers started exploiting its advantages applied to the problem of scene recognition. Even though such works are usually below the state of the art performance, there is still plenty of room to unravel the full potential of recurrent methodologies. Thus, this work proposes representing an image as a sequence of object-level information, extracting highly semantic features from models pre-trained on an object-centric dataset, in order to feed a bidirectional Long Short-Term Memory network trained for scene classification. We perform a Many-to-Many training approach, such that each input outputs a corresponding scene prediction, allowing us to use each individual prediction to boost recognition with a weighted voting approach. To the best of our knowledge, our sequence representation, as well as our late fusion of predictions was little pursued by methods from the literature based on recurrent approaches for scene recognition. We evaluated our proposal on three widely known datasets for scene recognition: Scene15, MIT67 and SUN397, outperforming recurrent-based methods on MIT67, a dataset entirely dedicated to the problem of indoor scenes, while the others, which mix indoor and outdoor environments presented as a greater challenge for our approach. However, we were able to improve performance on all datasets over the most successful methods on the literature by pairing our work to a few of them in an ensemble of classifiers. Meaning a joint strategy with our method was beneficial for the task of scene classification.
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
laranjeira_bilstmcontext_dissertation_text.pdf
Tamanho:
5.31 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: