Please use this identifier to cite or link to this item:
Type: Dissertação
Title: Imputação de dados sintéticos através de árvores de classificação
Authors: Larissa Natany Almeida Martins
First Advisor: Thais Paiva Galetti
Abstract: Este trabalho apresenta um estudo sobre a metodologia de geração de dados sintéticos através de árvores de classificação e regressão. Essa metodologia é usada quando existe alguma restrição na divulgação de informações sigilosas por questões éticas ou morais e existe o interesse em divulgar essas informações de maneira segura. Dados sintéticos utilizam a ideia de imputação múltipla, onde os valores originais são imputados por novos valores baseados nas distribuições das variáveis envolvidas no estudo. Várias metodologias podem ser utilizadas para a geração de dados sintéticos. Nesse trabalho utilizamos árvores de classificação e regressão (CART) para a classificação dos grupos envolvidos no estudo, o bootstrap Bayesiano para a estimação da densidade de cada grupo e o método da CDF inversa para a geração final dos dados sintéticos. O objetivo desse trabalho é estender a metodologia utilizada por Reiter e Drechsler (2011) para geração de dados sintéticos utilizando modelos não paramétricos para diferentes distribuições da variável sensível, incluindo o caso de distribuições com caudas pesadas. Iremos também apresentar o cálculo para medida de risco para diferentes hipóteses sobre a informação que um possível intruso possa possuir. Apresentamos a geração dos dados sintéticos para três cenários simulados com distribuições diferentes para verificar a eficiência do modelo. Também foi analisado um banco de dados real. Para os cenários simulados, o cenário 2 apresentou resultados piores do que os cenários 1 e 3, devido a distribuição da variável resposta. Para o banco de dados real os resultados foram considerados satisfatórios.
Abstract: This work presents a study on the methodology of synthetic data generation through classification and regression trees. This methodology is used when there is any restriction on disclosure of sensitive information for ethical or moral reasons and there is an interest in disclosing such information. Synthetic data use the idea of multiple imputation, where the original values are imputed by new values based on the distributions of the variables involved in the study. Several methodologies can be used to generate synthetic data. In this work we used classification and regression trees (CART) to classify the groups involved in the study, the Bayesian bootstrap to estimate the density of each group and the inverse CDF method for the final generation of synthetic data. The objective of this work is to extend the methodology used by Reiter and Drechsler (2011) to generate synthetic data using non-parametric models for different distributions of the sensitive variable, including the case of distributions with heavy tails. We will also present the calculation to measure risk for different hypotheses about the information that a possible intruder may have. We present the generation of synthetic data for three simulated scenarios with different distributions to verify the efficiency of the model. We also analyzed a real database. For the simulated scenarios, scenario 2 presented worse results than scenarios 1 and 3, due to the distribution of the response variable. For the real database, the results were considered satisfactory.
language: por Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.program: Programa de Pós-Graduação em Estatística
Rights: Acesso Aberto
Atribuição-NãoComercial-SemDerivados 3.0 Portugal
Issue Date: 12-Feb-2019
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
Tese.pdfAberto574.46 kBAdobe PDFView/Open

This item is licensed under a Creative Commons License Creative Commons