A formal quantitative study of privacy in the publication of official educational censuses in Brazil

Gabriel Henrique Lopes Gomes Alves Nunes

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/38085

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Mário Sérgio Ferreira Alvim Júnior	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/1397639761790594	pt_BR
dc.contributor.advisor-co1	Annabelle McIver	pt_BR
dc.contributor.referee1	Diego de Freitas Aranha	pt_BR
dc.contributor.referee2	Gabriel de Morais Coutinho	pt_BR
dc.contributor.referee3	Jeroen Antonius Maria van de Graaf	pt_BR
dc.creator	Gabriel Henrique Lopes Gomes Alves Nunes	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/7793457726526468	pt_BR
dc.date.accessioned	2021-09-20T00:05:28Z	-
dc.date.available	2021-09-20T00:05:28Z	-
dc.date.issued	2021-04-28	-
dc.identifier.uri	http://hdl.handle.net/1843/38085	-
dc.description.abstract	A preservação da privacidade na divulgação de dados estatísticos tem sido uma preocupação da comunidade científica há décadas. Essa preocupação tem se expandido gradualmente para fora da academia e tem se refletido na promulgação e no reforço generalizado da legislação de proteção à privacidade em todo o mundo. No Brasil, a nova lei de privacidade promulgada em 2018 (LGPD) estabelece restrições obrigatórias aos órgãos governamentais que divulgam publicamente dados sobre pessoas físicas e prescreve sanções em caso de não conformidade. Nesse contexto, é fundamental que essas agências revisem minuciosamente e, se necessário, adaptem seus métodos atuais de publicação de dados. No entanto, é bem conhecido que qualquer método de controle de divulgação aplicado à liberação de dados estatísticos pode apresentar efeitos deletérios na utilidade dos dados, ou seja, na qualidade da informação fornecida aos consumidores legítimos, como analistas e a sociedade como um todo. Um equilíbrio preciso entre privacidade e utilidade deve ser alcançado, levando em consideração os interesses de várias partes, incluindo proprietários de dados, consumidores legítimos de dados e o governo. Nesta dissertação, fornecemos um estudo quantitativo completo dos riscos à privacidade na divulgação dos Censos Educacionais Brasileiros oficiais fornecidos anualmente pelo INEP, que é o órgão governamental brasileiro responsável pelo desenvolvimento e manutenção de sistemas de estatísticas educacionais. Mais precisamente, analisamos formalmente os riscos de privacidade em bancos de dados divulgados como microdados, i.e. dados no nível de registro de cada indivíduo, e protegidos pela técnica de desidentificação, i.e. a remoção de informações de identificação direta, como nomes de indivíduos ou números de identificação pessoal. Para tanto, propomos um sistema unificado de classificação de ataques, que nos permite cobrir e formalizar adequadamente o panorama de riscos à privacidade nos Censos Educacionais. Nossa primeira contribuição são modelos de ataques rigorosamente formalizados no framework de fluxo de informação quantitativa, definidos ao longo de três dimensões ortogonais: (i) risco de reidentificação vs. risco de inferência de atributos; (ii) ataques a uma única base de dados vs. ataques a bases de dados longitudinais, i.e. aquelas que são atualizadas e ampliadas com frequência, como no caso dos Censos do INEP; e (iii) medidas determinísticas vs. probabilísticas de risco de privacidade. Como uma segunda contribuição, empregamos nossos modelos formais para obter avaliações quantitativas extensas de riscos de privacidade nas bases de dados dos Censos Educacionais do INEP, que respondem por mais de cinquenta milhões de alunos, ou cerca de 25% da população atual do país. Esses experimentos mostram inequivocamente que os métodos atuais de controle de divulgação do INEP são insuficientes para garantir a privacidade dos indivíduos em qualquer nível aceitável e, portanto, podem estar em desacordo com a nova legislação de privacidade do Brasil. Por exemplo, 81,13% dos alunos no Censo Escolar de 2019, correspondendo a aproximadamente 39.085.531 indivíduos, podem estar sujeitos a reidentificação completa sob ataques razoavelmente modestos. Argumentamos, portanto, que o INEP deve abandonar as práticas atuais e considerar métodos de controle de divulgação mais rígidos. Como uma terceira contribuição, avaliamos formalmente o trade-off entre privacidade e utilidade em duas variantes de privacidade diferencial --a técnica de controle de divulgação padrão-ouro na literatura-- como o método a ser empregado para divulgação dos Censos Educacionais do INEP. Nossos resultados confirmam que a privacidade diferencial global tende a favorecer a utilidade em relação à privacidade, enquanto a privacidade diferencial local tende a agir de forma oposta. Até onde sabemos, nossas análises são as mais extensas desse tipo na literatura. Além disso, nossos resultados fornecem ao INEP evidências empíricas sólidas para orientar decisões futuras bem informadas ao cumprir a nova legislação de privacidade do Brasil e têm o potencial de impactar positivamente uma fração significativa da população brasileira.	pt_BR
dc.description.resumo	Privacy preservation in the release of statistical data has been a concern of the scientific community for decades. This preoccupation has been gradually expanding to outside of academia, and has been reflected in the widespread enactment and reinforcement of privacy-protection legislation around the world. In Brazil, the new privacy law enacted in 2018 (LGPD) establishes mandatory restrictions on governmental agencies that publicly release data on individuals, and prescribes sanctions in case of non-compliance. In this context, it is paramount for those agencies to thoroughly review and, if necessary, adapt their current methods of data publishing. However, it is well known that any disclosure control method applied to the release of statistical data may present deleterious effects on data utility, i.e. on the quality of information provided to legitimate consumers, such as analysts and society as a whole. A fine balance between privacy and utility must be achieved, taking into consideration the interests of several stakeholders, including data owners, legitimate data consumers, and the government. In this thesis, we provide a thorough quantitative study of privacy risks in the release of the official Brazilian Educational Censuses provided annually by INEP, which is Brazil's governmental agency responsible for the development and maintenance of educational statistics systems. More precisely, we formally analyze privacy risks in databases released as microdata, i.e. data at each individual's record level, and protected by the technique of de-identification, i.e. the removal of direct identifying information such as the individuals' names or personal identification numbers. In order to do so, we propose a unified classification system for attacks, which allows us to properly cover and formalize the landscape of privacy risks in the Educational Censuses. Our first contribution are models of attacks rigorously formalized in the framework of quantitative information flow, defined along three orthogonal dimensions: (i) risk of re-identification vs. risk of attribute-inference; (ii) attacks on a single database vs. attacks on longitudinal databases, i.e. those that are updated and extended frequently, as in the case of INEP's Censuses; and (iii) deterministic vs. probabilistic measures of privacy risk. As a second contribution, we employ our formal models to obtain extensive quantitative evaluations of privacy risks on INEP's Educational Census databases, which account for more than fifty million students, or around 25% of the country's current population. Those experiments unequivocally show that INEP's current disclosure control methods are insufficient to guarantee individuals' privacy at any acceptable level, and therefore may be in contempt with Brazil's new privacy legislation. For instance, 81.13% of students in the School Census of 2019, corresponding to approximately 39,085,531 individuals, may be subject to complete re-identification under reasonably modest attacks. We argue, therefore, that INEP should abandon current practices and consider stricter disclosure control methods. As a third contribution, we formally evaluate the trade-off between privacy and utility in two variants of differential privacy --the golden standard disclosure control technique in the literature-- as the method to be employed to INEP's Educational Censuses releases. Our results confirm that global differential privacy tends to favor utility over privacy, whereas local differential privacy tends to act in the opposite way. To the best of our knowledge, our analyses are the most extensive of its kind in the literature. Furthermore, our results provide INEP with solid empirical evidence to guide well-informed future decisions when complying to Brazil's new privacy legislation, and have the potential to positively impact a significant fraction of the Brazilian population.	pt_BR
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/	*
dc.subject	Quantitative Information Flow	pt_BR
dc.subject	Disclosure Control	pt_BR
dc.subject	Microdata	pt_BR
dc.subject	Differential Privacy	pt_BR
dc.subject	Privacy	pt_BR
dc.subject	Utility	pt_BR
dc.subject.other	Computação – Teses	pt_BR
dc.subject.other	Teoria da Informação – Teses.	pt_BR
dc.subject.other	Fluxo de Informação Quantitativo – Teses.	pt_BR
dc.subject.other	Dados estatísticos – Direito a privacidade – Teses.	pt_BR
dc.subject.other	Censo escolar – Brasil – Teses.	pt_BR
dc.title	A formal quantitative study of privacy in the publication of official educational censuses in Brazil	pt_BR
dc.title.alternative	Um estudo quantitativo formal sobre privacidade na publicação dos censos educacionais oficiais no Brasil	pt_BR
dc.type	Dissertação	pt_BR
dc.identifier.orcid	https://orcid.org/0000-0002-7823-3061	pt_BR
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
A formal quantitative study of privacy in the publication of official educational censuses in Brazil.pdf		8.07 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License