Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/50555
Type: Dissertação
Title: Análise de sensibilidade de técnicas de amostragem em grafos aleatórios
Authors: Marina Alves Amorim
First Advisor: Denise Duarte Scarpa Magalhaes Alves
First Co-advisor: http://lattes.cnpq.br/7740592064640884
First Referee: Luiz Henrique Duczmal
Second Referee: Rodrigo Lambert
Third Referee: Fabricio Murai Ferreira
Abstract: Neste trabalho, propomos uma análise de sensibilidade dos métodos de amostragem para grafos aleatórios, buscamos encontrar a melhor estratégia de amostragem para cada modelo analisado. Quando nos referimos a uma boa estratégia de amostragem, estamos analisando à capacidade de um método de amostragem em preservar as características do grafo populacional observado. Os seguintes modelos de grafos aleatórios foram usados para capturar diferentes estruturas de dados relacionais: Erdös Rényi, Geométrico, Barabasi Albert e Watts Strogatz. Para cada um desses modelos de grafos, testamos os seguintes métodos de amostragem: amostragem aleatória de vértices, amostragem aleatória de arestas e amostragem por bolas de neve. Amostragem em grafos é uma campo promissor, e existem estudos na área que utilizam medidas topológicas individuais para validar a estratégia de amostragem. Nosso trabalho difere dos demais ao propor o uso de uma informação sintética mais robusta − a densidade espectral do grafo. Além de ser uma medida sintética, ela preserva todas as informações contidas no grafos, incluindo as métricas topológicas usadas individualmente. Utilizamos a divergência de Kullback-Leibler entre a densidade espectral do grafo aleatório e suas versões amostradas para validar seu uso e, em seguida, usando densidades espectrais, construímos um teste a partir das diferenças de Jensen Shannon para verificar se a perda de vértices ou arestas afeta a identificabilidade do modelo original. Nossa abordagem de amostragem produziu dois resultados principais. Primeiro, encontramos um limiar de 500 vértices para garantir a recuperação do modelo original, independentemente do método de amostragem ou modelo de grafo utilizado. Segundo, nossa abordagem nos permitiu informar qual método de amostragem é mais apropriado para cada modelo de grafo observado.
Abstract: In this work, we propose a sensitivity analysis of sampling methods for random graphs in order to find the best sampling strategy for each model analyzed. For best sampling strategy we mean the ability of a sampling method to preserve the characteristics of the graph, even under increasing loss of information. The following random graph models were used to capture different relational data structures: Erdös Rényi, Geometric, Barabasi Albert and Watts Strogatz. For each of these graph models we tested the following sampling methods: random vertex sampling, random edge sampling, and snowball sampling. Sampling graphs is a promising area and there are studies using individual topological measures to validate the sampling strategy. Our work differs from the others in proposing the use of a more robust synthetic information − the spectral density of the graph. In addition to being a synthetic measure, it preserves all the information contained in the graph, including the topological metrics individually used. We use the Kullback-Leibler Divergence between spectral density of the original graph and their sampled versions to validate its use and then, using spectral densities, we built a test from the Jensen Shannon test statistics to check if the loss of vertices or edges affects the identifiability of the original model. Our sampling approach yielded two main results. First, we found a lower limit of 500 vertices to guarantee the recovery of the original model, regardless of the sampling method or graph model used. Second, our approach allowed us to inform which sampling method is most appropriate for each observed graph.
Subject: Estatística – Teses
Grafos – Teses
Amostragem – Teses
language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICX - DEPARTAMENTO DE ESTATÍSTICA
metadata.dc.publisher.program: Programa de Pós-Graduação em Estatística
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/50555
Issue Date: 27-Feb-2020
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
dissertação_marina_alves_amorim_estatistica.pdf2.03 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.