Geração e análise de dados sintéticos via Redes Bayesianas: uma abordagem robusta para quantificação de incerteza via paradigma Bayesiano
Carregando...
Arquivos
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Tese de doutorado
Título alternativo
Synthetic data generation and analysis via Bayesian Networks: a robust approach for uncertainty quantification via Bayesian paradigm
Primeiro orientador
Membros da banca
Vinícius Diniz Mayrink
Guilherme Lopes de Oliveira
Lívia Maria Dutra
Kelly Cristina Mota Gonçalves
Guilherme Lopes de Oliveira
Lívia Maria Dutra
Kelly Cristina Mota Gonçalves
Resumo
A divulgação segura de dados confidenciais representa uma área de grande interesse, e dentre as diversas metodologias existentes, a abordagem de dados sintéticos destaca-se por sua capacidade de gerar informações de forma sigilosa. Essa metodologia é altamente flexível, visando a divulgação de dados com distribuições muito semelhantes às dos dados originais e assim preservando também a segurança de informações sensíveis. O modelo de rede Bayesiana, por sua vez, tem como propósito estimar de forma eficiente a distribuição conjunta de dados de interesse. Este método é uma escolha interessante para a geração de dados sintéticos, pois é um método flexível e robusto para a descrição das relações entre variáveis presentes no banco de dados original. Ao adotarmos o paradigma Bayesiano, conseguimos criar um modelo robusto não apenas para estimar a rede e os dados simulados, mas também para quantificar a incerteza intrínseca ao processo de geração desses novo dados. Esta tese propõe um estudo que utiliza um modelo estado da arte Markov chain Monte Carlo (MCMC) para geração de dados sintéticos. Além disso, apresentamos uma abordagem inovadora para a divulgação de informações relevantes ao usuário final, com o intuito de reduzir a incerteza associada ao processo de estimação. As principais contribuições deste trabalho incluem uma análise abrangente utilizando o paradigma Bayesiano para gerar dados sintéticos por meio de redes Bayesianas, incorporando um estudo robusto sobre a quantificação da incerteza no processo de geração desses novos dados. Introduzimos também uma classe geral de prioris penalizadoras para a rede. A tese compreende três estudos de simulação, bem como uma aplicação a dados reais que ilustra a análise do modelo proposto.
Abstract
The disclosure of confidential data represents an area of great interest, and among the various existing methodologies, the synthetic data approach stands out for its ability to generate information discreetly. This methodology is highly flexible, aiming to disclose data with distributions very similar to those of the original data, thus also preserving the security of sensitive information. The Bayesian network model, in turn, is designed to efficiently estimate the joint distribution of relevant data. This method is an intriguing choice for generating synthetic data as it provides a flexible and robust approach to describing relationships between variables present in the original database. By adopting the Bayesian paradigm, we can create a robust model not only to estimate the network and simulated data but also to quantify the intrinsic uncertainty in the process of generating this new data. This thesis proposes a study that utilizes a state-of-the-art Markov chain Monte Carlo (MCMC) model for generating synthetic data. Additionally, we introduce an innovative approach to disseminating relevant information to the end user, aiming to reduce the uncertainty associated with the estimation process. The main contributions of this work include a comprehensive analysis using the Bayesian paradigm to generate synthetic data through Bayesian networks, incorporating a robust study on quantifying uncertainty in the process of generating this new data. We also introduce a general class of penalizing priors for the network. The thesis comprises three simulation studies as well as an application to real data that illustrates the analysis of the proposed model.
Assunto
Estatística - Teses, Inferência Bayesiana - Teses, Markov, Processos de - Teses, Dados Sintéticos - Teses
Palavras-chave
dados sintéticos, redes Bayesianas, inferência Bayesiana, quantificação de incerteza
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Restrito
