Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/38082
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Jefersson Alex dos Santospt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/2171782600728348pt_BR
dc.contributor.advisor-co1Keiller Nogueirapt_BR
dc.contributor.referee1Keiller Nogueirapt_BR
dc.contributor.referee2Clodoveu Augussto Davis Júniorpt_BR
dc.contributor.referee3Otávio Augusto Bizetto Penattipt_BR
dc.creatorGabriel Lucas Silva Machadopt_BR
dc.creator.Latteshttp://lattes.cnpq.br/7767025575268263pt_BR
dc.date.accessioned2021-09-19T23:36:25Z-
dc.date.available2021-09-19T23:36:25Z-
dc.date.issued2021-03-31-
dc.identifier.urihttp://hdl.handle.net/1843/38082-
dc.description.abstractÉ inegável que imagens aéreas e orbitais fornecem uma grande variedade de informações para muitos tipos de aplicações, tais como logística humanitária para desastres naturais e planejamento urbano. Porém, devido ao fato dessas imagens sempre terem a mesma perspectiva, algumas aplicações podem ter grandes benefícios, caso sejam complementadas com fotos de outros ângulos, como por exemplo, imagens tomadas ao nível do solo. Apesar do grande número de repositórios de imagens públicos que permitem a aquisição de fotos e imagens aéreas georreferenciadas (tais como Google Maps e Google Street View), existe uma falta de datasets públicos com imagens pareadas de múltiplas visões. Devido a essa escassez, nesta dissertação foram produzidos dois novos datasets. O primeiro deles foi nomeado AiRound, e para cada amostra possui triplas de imagens de uma mesma coordenada geográfica. Cada tripla do AiRound contém uma imagem aérea, uma foto a nível do solo e uma imagem multi-espectral do satélite Sentinel-2. O segundo dataset foi nomeado CV-BrCT (Cross-View Brazilian Construction Types). Este é composto por pares de imagens (nível aéreo e nível do solo) coletados do Sudeste do Brasil. Para esta dissertação, conduzimos uma série de experimentos envolvendo ambos os datasets e visando os seguintes objetivos: (i) explorar a complementariedade de informação que imagens aéreas e a nível de solo possuem, usando modelos de aprendizado de máquina multimodais, (ii) comparar diferentes técnicas de fusão de características aplicadas em arquiteturas de redes neurais convolucionais, e (iii) investigar formas de lidar com atributos ausentes em um cenário multi-modal, no qual sempre existirá falta de dados em um determinado domínio. Experimentos demonstram que se comparados a modelos treinados/avaliados em um único domínio, algoritmos de fusão de informação atingem ganhos de até 0.15 e 0.20 no F1-Score para os datasets AiRound e CV-BrCT, respectivamente. Como nem sempre é possível obter imagens pareadas (em níveis aéreo e de solo) do mesmo local, projetamos um framework para lidar com cenários que utilizam algoritmos multimodais, e que nem sempre exigem pares de imagens para todas as amostras. Comparando resultados de classificações usando imagens de um único domínio com o uso do nosso framework integrado a um modelo multimodal, atingimos um ganho de 0.03 no F1-Score para ambos os datasets. Portanto, demonstramos que utilizar o nosso framework é mais eficaz do que apenas classificar usando dados e classificadores de um único domínio.pt_BR
dc.description.resumoIt is undeniable that aerial and orbital images can provide useful information for a large variety of tasks, such as disaster relief and urban planing. But, since these images only see the Earth from one point of view, some applications can benefit from complementary information provided by other perspective views of the scene, such as ground-level images. Despite a large number of public image repositories for both georeferenced photographs and aerial images (such as Google Maps and Google Street View), there is a lack of public datasets that allow the development of approaches that exploit the benefits and complementarity of aerial/ground imagery. Because of that, in this dissertation, we present two new publicly available datasets named AiRound and CV-BrCT (Cross-View Brazilian Construction Types). The first one contains triplets of images from the same geographic coordinate with different perspectives, obtained at various places around the world. Each triplet is composed of an aerial RGB image, a ground-level perspective image, and a Sentinel-2 sample. The second dataset contains pairs of aerial and street-level images extracted from the southeast of Brazil. For this dissertation, we conducted a series of experiments involving both proposed datasets with the main objectives of (i) explore the complementary information that aerial and ground images have by using multi-modal machine learning models to enhance results, (ii) compare different feature fusion approaches applied in several state-of-the-art Convolutional Neural Network architectures, and (iii) investigate alternatives to handle missing data in a multi-modal scenario. Experiments show that, when compared to networks trained using only a single view, feature fusion algorithms achieved gains up to 0.15 and 0.20 in F1-Score for the AiRound and CV-BrCT datasets, respectively. Since it is not always possible to obtain the paired aerial/ground samples of a place, we also designed a framework to handle scenarios with missing samples. Comparing the results of a single-view network classification to the use of our framework integrated with a multi-view model, we achieved gains up to 0.03 in F1-Score for both datasets. Thus, our missing data completion framework has proven to be a more effective approach than just classifying images using a single-view model.pt_BR
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológicopt_BR
dc.description.sponsorshipFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Geraispt_BR
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃOpt_BR
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectRemote sensingpt_BR
dc.subjectSensoriamento remotopt_BR
dc.subjectImage classificationpt_BR
dc.subjectClassificação de imagenspt_BR
dc.subjectMultimodal machine learningpt_BR
dc.subjectAprendizado de máquinapt_BR
dc.subject.otherComputação – Teses.pt_BR
dc.subject.otherSensoriamento remoto – Teses.pt_BR
dc.subject.otherClassificação de imagens – Teses.pt_BR
dc.subject.otherAprendizado de máquina – Teses.pt_BR
dc.titleScene classification using a combination of aerial and ground imagespt_BR
dc.title.alternativeCombinando múltiplas perspectivas para classificação de cenaspt_BR
dc.typeDissertaçãopt_BR
dc.identifier.orcid0000-0002-7133-6324pt_BR
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
gabriel_dissertation_final.pdf20.2 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.