Geração e análise de dados sintéticos via Redes Bayesianas: uma abordagem robusta para quantificação de incerteza via paradigma Bayesiano
| dc.creator | Larissa Natany Almeida Martins | |
| dc.date.accessioned | 2024-10-30T17:14:50Z | |
| dc.date.accessioned | 2025-09-08T23:28:21Z | |
| dc.date.available | 2024-10-30T17:14:50Z | |
| dc.date.issued | 2024-02-29 | |
| dc.description.abstract | The disclosure of confidential data represents an area of great interest, and among the various existing methodologies, the synthetic data approach stands out for its ability to generate information discreetly. This methodology is highly flexible, aiming to disclose data with distributions very similar to those of the original data, thus also preserving the security of sensitive information. The Bayesian network model, in turn, is designed to efficiently estimate the joint distribution of relevant data. This method is an intriguing choice for generating synthetic data as it provides a flexible and robust approach to describing relationships between variables present in the original database. By adopting the Bayesian paradigm, we can create a robust model not only to estimate the network and simulated data but also to quantify the intrinsic uncertainty in the process of generating this new data. This thesis proposes a study that utilizes a state-of-the-art Markov chain Monte Carlo (MCMC) model for generating synthetic data. Additionally, we introduce an innovative approach to disseminating relevant information to the end user, aiming to reduce the uncertainty associated with the estimation process. The main contributions of this work include a comprehensive analysis using the Bayesian paradigm to generate synthetic data through Bayesian networks, incorporating a robust study on quantifying uncertainty in the process of generating this new data. We also introduce a general class of penalizing priors for the network. The thesis comprises three simulation studies as well as an application to real data that illustrates the analysis of the proposed model. | |
| dc.description.sponsorship | CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico | |
| dc.description.sponsorship | FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais | |
| dc.description.sponsorship | CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior | |
| dc.identifier.uri | https://hdl.handle.net/1843/77732 | |
| dc.language | por | |
| dc.publisher | Universidade Federal de Minas Gerais | |
| dc.rights | Acesso Restrito | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/pt/ | |
| dc.subject | Estatística - Teses | |
| dc.subject | Inferência Bayesiana - Teses | |
| dc.subject | Markov, Processos de - Teses | |
| dc.subject | Dados Sintéticos - Teses | |
| dc.subject.other | dados sintéticos | |
| dc.subject.other | redes Bayesianas | |
| dc.subject.other | inferência Bayesiana | |
| dc.subject.other | quantificação de incerteza | |
| dc.title | Geração e análise de dados sintéticos via Redes Bayesianas: uma abordagem robusta para quantificação de incerteza via paradigma Bayesiano | |
| dc.title.alternative | Synthetic data generation and analysis via Bayesian Networks: a robust approach for uncertainty quantification via Bayesian paradigm | |
| dc.type | Tese de doutorado | |
| local.contributor.advisor-co1 | Thais Paiva Galletti | |
| local.contributor.advisor1 | Flávio Bambirra Gonçalves | |
| local.contributor.advisor1Lattes | http://lattes.cnpq.br/2015101359463631 | |
| local.contributor.referee1 | Vinícius Diniz Mayrink | |
| local.contributor.referee1 | Guilherme Lopes de Oliveira | |
| local.contributor.referee1 | Lívia Maria Dutra | |
| local.contributor.referee1 | Kelly Cristina Mota Gonçalves | |
| local.creator.Lattes | https://lattes.cnpq.br/9133103825732566 | |
| local.description.embargo | 2026-03-01 | |
| local.description.resumo | A divulgação segura de dados confidenciais representa uma área de grande interesse, e dentre as diversas metodologias existentes, a abordagem de dados sintéticos destaca-se por sua capacidade de gerar informações de forma sigilosa. Essa metodologia é altamente flexível, visando a divulgação de dados com distribuições muito semelhantes às dos dados originais e assim preservando também a segurança de informações sensíveis. O modelo de rede Bayesiana, por sua vez, tem como propósito estimar de forma eficiente a distribuição conjunta de dados de interesse. Este método é uma escolha interessante para a geração de dados sintéticos, pois é um método flexível e robusto para a descrição das relações entre variáveis presentes no banco de dados original. Ao adotarmos o paradigma Bayesiano, conseguimos criar um modelo robusto não apenas para estimar a rede e os dados simulados, mas também para quantificar a incerteza intrínseca ao processo de geração desses novo dados. Esta tese propõe um estudo que utiliza um modelo estado da arte Markov chain Monte Carlo (MCMC) para geração de dados sintéticos. Além disso, apresentamos uma abordagem inovadora para a divulgação de informações relevantes ao usuário final, com o intuito de reduzir a incerteza associada ao processo de estimação. As principais contribuições deste trabalho incluem uma análise abrangente utilizando o paradigma Bayesiano para gerar dados sintéticos por meio de redes Bayesianas, incorporando um estudo robusto sobre a quantificação da incerteza no processo de geração desses novos dados. Introduzimos também uma classe geral de prioris penalizadoras para a rede. A tese compreende três estudos de simulação, bem como uma aplicação a dados reais que ilustra a análise do modelo proposto. | |
| local.publisher.country | Brasil | |
| local.publisher.department | ICX - DEPARTAMENTO DE ESTATÍSTICA | |
| local.publisher.initials | UFMG | |
| local.publisher.program | Programa de Pós-Graduação em Estatística |