Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/47523
Tipo: Dissertação
Título: Semantic segmentation with siamese autoencoder and latent data model via context windows
Autor(es): Pedro Henrique Araujo Pinto
Primeiro Orientador: Jefersson Alex dos Santos
Primeiro membro da banca : Heitor Soares Ramos Filho
Segundo membro da banca: Cristiano Leite de Castro
Resumo: Remote sensing is the set of techniques and technological procedures that aim to represent the earth’s surface without the need for direct contact and involves actions to collect data, information and images from the surface, in order to represent them and better understand their aspects. With technological advances and the consequent increase in data obtained for analysis, together with the improvement of increasingly powerful artificial neural network techniques, several computer vision tasks - such as semantic segmentation - have attracted increasing attention from researchers. Segmenting a high-dimensional aerial image, despite not being an easy task, has shown promising results with the use of neural networks. Several variations of architectures and aid modules - such as attention modules - for pixel classification were tested in the literature for image segmentation. However, the segmentation of aerial images still has room for improvement and some work fronts little explored. In this work, we used deep metric learning to segment aerial images in four scenarios: buildings (constructions), coffee plantations, cars and trees. We used an architecture, called SMELL, based on an autoencoder and a distance learning module, originally developed for classification tasks and adapted it to solve semantic segmentation problems using context windows. The application of a siamese neural network, with a metric learning module for which the distance function is learned and optimized by the model itself, seems not to have been explored in the literature for remote sensing. Our tests show that the use of distances for classification at the pixel level can be very useful for segmentation tasks, surpassing some state-of-the-art architectures, such as ResNet and Xception. Our work opens space for the exploration of other metric learning techniques, as well as presents possible improvements to be tested in the presented method.
Abstract: Sensoriamento remoto é o conjunto de técnicas e procedimentos tecnológicos que visa à representação da superfície terrestre sem a necessidade de um contato direto e envolve ações para levantar dados, informações e imagens da superfície, com o intuito de representá-las e melhor entender os seus aspectos. Com o avanço tecnológico e consequente aumento de dados obtidos para análise, juntamento com o aprimoramento de técnicas de redes neurais artificais cada vez mais poderosas, diversas tarefas de visão computacional - como segmentação semântica - têm atraído cada vez mais atenção de pesquisadores. Segmentar uma imagem aérea de alta dimensão, apesar de não ser uma tarefa fácil, tem apresentado resultados promissores com o uso de redes neurais. Diversas variações de arquiteturas e módulos de auxílio - como módulos de atenção - para classificação de pixels foram testados na literatura para segmentação de imagens. No entanto, a segmentação de imagens aéreas ainda apresenta espaço para melhora e algumas frentes de trabalho pouco exploradas. Nesse trabalho, utilizamos o aprendizado métrico profundo para a segmentação de imagens aéreas em quatro cenários: prédios (construções), plantações de café, carros e árvores. Utilizamos uma arquitetura, chamada SMELL, originalmente desenvolvida para tarefas de classificação e a adaptamos para solucionar problemas de segmentação semântica utilizando janelas de contexto. A aplicação de uma rede neural siamesa, com um módulo de aprendizado métrico para o qual a função de distância é aprendida e optimizada pelo próprio modelo parece não ter sido explorada na literatura para sensoriamento remoto. Nossos testes mostram que a utilização de distâncias para a classificação a nível de pixel pode ser muito útil para tarefas de segmentação, superando algumas arquiteturas que figuram o estado da arte, como ResNet e Xception. Nosso trabalho abre espaço para a exploração de outras técnicas de aprendizado métrico, bem como apresenta possíveis melhorias a serem testadas no método apresentado.
Assunto: Computação – Teses
Redes neurais (Computação) – Teses
Segmentação semântica – Teses
Sensoriamento remoto – Teses
Idioma: eng
País: Brasil
Editor: Universidade Federal de Minas Gerais
Sigla da Instituição: UFMG
Departamento: ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Curso: Programa de Pós-Graduação em Ciência da Computação
Tipo de Acesso: Acesso Aberto
URI: http://hdl.handle.net/1843/47523
Data do documento: 25-Jul-2022
Aparece nas coleções:Dissertações de Mestrado

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
master_thesis__Copy_.pdf4.12 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.