A Quantitative information flow model for attribute-inference attacks and utility in data releases by sampling

Ramon Gonçalves Gonze

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/51808

Type:	Dissertação
Title:	A Quantitative information flow model for attribute-inference attacks and utility in data releases by sampling
Authors:	Ramon Gonçalves Gonze
First Advisor:	Mario Sérgio Ferreira Alvim Jùnior
First Referee:	Catuscia Palamidessi
Second Referee:	Jeroen Antonius Maria Van De Graaf
Abstract:	Statistical disclosure is a process that has been present in society for a long time, however the concern about privacy is relatively recent. The interest in protecting individual data increased considerably especially after the elaboration of regulations about data protection around the world, such as the General Data Protection Regulation (GDPR) in the European Union and the Lei Geral de Proteção de Dados (LGPD) in Brazil. The effort in the scientific community to develop methods for the mitigation of privacy risks and to understand the trade-off between privacy and utility compose a large research area. However, mathematical models that explain formally this trade-off are, in some situations, misunderstood by data curators, i.e., entities that collect data from a population and adopt a certain policy to publish them can not understand what are the risks and benefits of that policy. In this sense, models and solutions that ensure that all parties involved are aware of the risks and benefits of each policy adopted are important for well informed decision-making. As a first contribution of this work we propose a model that captures the vulnerability of publishing a sample from a population, in particular, the vulnerability of an attribute inference attack. We also describe the utility of the sample for data analysts who aim to infer the distribution of the values of an attribute in a population. The model was developed using the framework of Quantitative Information Flow (QIF) that provides a mathematical apparatus to formally model systems as informational channels. We developed the model with the goal of being easily understandable by non experts and to be used by data curators when making decisions about how to publish their data. As a second contribution we provide closed formulas for prior and posterior vulnerabilities of attribute inference attack and for prior utility loss. The closed formulas are useful when quantifying vulnerabilities and utility losses in large datasets/samples.
Abstract:	Divulgação de dados estatísticos é um processo presente na sociedade há bastante tempo, entretanto, a preocupação com privacidade é relativamente recente. O interesse em proteger dados individuais aumentou consideravelmente depois da elaboração de regulações sobre proteção de dados ao redor do mundo, como a General Data Protection Regulation (GDPR) na União Européia e a Lei Geral de Proteção de Dados (LGPD) no Brasil. O esforço na comunidade científica para criar métodos de mitigação de risco à privacidade e para entender o compromisso entre privacidade e utilidade compõe uma grande área de pesquisa. Contudo, modelos matemáticos que buscam explicar formalmente este compromisso são, em alguma situações, incompreendidos pelos curadores de dados, i.e., entidades que coletam dados de uma população e adotam uma certa política para publicá-los podem não compreender quais os riscos e benefícios de tal política. Neste sentido, modelos e soluções que garantem que todas as partes envolvidas tenham ciência dos riscos e benefícios de cada política adotada se mostram importantes para que tomadas de decisões sejam realizadas de modo bem informado. Como primeira contribuição deste trabalho, nós propomos um modelo que captura a vulnerabilidade de publicar-se uma amostra de uma população, em particular, a vulnerabilidade sob um ataque de inferência de atributo. Além disso descrevemos a utilidade de se publicar uma amostra para analistas de dados que têm como objetivo inferir a distribuição dos valores de um atributo em uma população. O modelo foi desenvolvido utilizando o arcabouço Quantitative Information Flow (QIF) que fornece um aparato matemático para modelar formalmente sistemas como canais de informação. Nós desenvolvemos o modelo com o objetivo de ser facilmente explicável para não especialistas e para ser utilizado por curadores de dados quando estiverem tomando decisões sobre como publicar os seus dados. Como segunda contribuição, nós provemos fórmulas fechadas para vulnerabilidades à priori e à posteriori para ataques de inferência de atributo e para perda de utilidade à priori. As fórmulas fechadas são úteis para quantificar vulnerabilidades e perdas de utilidade em grandes amostras e populações.
Subject:	Computação – Teses Dados estatísticos – Divulgação – Teses Amostragem (Estatística) – Teses Privacidade – Informática – Teses Gestão da informação – Tese
language:	eng
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program:	Programa de Pós-Graduação em Ciência da Computação
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/51808
Issue Date:	11-Jan-2023
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
Ramon_thesis_final_version.pdf		1.56 MB	Adobe PDF	View/Open

Show full item record