Imputação de dados sintéticos através de árvores de classificação
Carregando...
Arquivos
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Primeiro orientador
Membros da banca
Resumo
Este trabalho apresenta um estudo sobre a metodologia de geração de dados sintéticos
através de árvores de classificação e regressão. Essa metodologia é usada quando
existe alguma restrição na divulgação de informações sigilosas por questões éticas
ou morais e existe o interesse em divulgar essas informações de maneira segura. Dados
sintéticos utilizam a ideia de imputação múltipla, onde os valores originais são
imputados por novos valores baseados nas distribuições das variáveis envolvidas no
estudo. Várias metodologias podem ser utilizadas para a geração de dados sintéticos.
Nesse trabalho utilizamos árvores de classificação e regressão (CART) para a
classificação dos grupos envolvidos no estudo, o bootstrap Bayesiano para a estimação
da densidade de cada grupo e o método da CDF inversa para a geração final dos
dados sintéticos. O objetivo desse trabalho é estender a metodologia utilizada por
Reiter e Drechsler (2011) para geração de dados sintéticos utilizando modelos não
paramétricos para diferentes distribuições da variável sensível, incluindo o caso de
distribuições com caudas pesadas. Iremos também apresentar o cálculo para medida
de risco para diferentes hipóteses sobre a informação que um possível intruso possa
possuir. Apresentamos a geração dos dados sintéticos para três cenários simulados
com distribuições diferentes para verificar a eficiência do modelo. Também foi analisado
um banco de dados real. Para os cenários simulados, o cenário 2 apresentou
resultados piores do que os cenários 1 e 3, devido a distribuição da variável resposta.
Para o banco de dados real os resultados foram considerados satisfatórios.
Abstract
This work presents a study on the methodology of synthetic data generation through
classification and regression trees. This methodology is used when there is any
restriction on disclosure of sensitive information for ethical or moral reasons and
there is an interest in disclosing such information. Synthetic data use the idea of
multiple imputation, where the original values are imputed by new values based
on the distributions of the variables involved in the study. Several methodologies
can be used to generate synthetic data. In this work we used classification and
regression trees (CART) to classify the groups involved in the study, the Bayesian
bootstrap to estimate the density of each group and the inverse CDF method for
the final generation of synthetic data. The objective of this work is to extend the
methodology used by Reiter and Drechsler (2011) to generate synthetic data using
non-parametric models for different distributions of the sensitive variable, including
the case of distributions with heavy tails. We will also present the calculation to
measure risk for different hypotheses about the information that a possible intruder
may have. We present the generation of synthetic data for three simulated scenarios
with different distributions to verify the efficiency of the model. We also analyzed a
real database. For the simulated scenarios, scenario 2 presented worse results than
scenarios 1 and 3, due to the distribution of the response variable. For the real
database, the results were considered satisfactory.
Assunto
Palavras-chave
Dados sintéticos, CART, Divulgação de dados
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
