Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/38085
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Mário Sérgio Ferreira Alvim Júniorpt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/1397639761790594pt_BR
dc.contributor.advisor-co1Annabelle McIverpt_BR
dc.contributor.referee1Diego de Freitas Aranhapt_BR
dc.contributor.referee2Gabriel de Morais Coutinhopt_BR
dc.contributor.referee3Jeroen Antonius Maria van de Graafpt_BR
dc.creatorGabriel Henrique Lopes Gomes Alves Nunespt_BR
dc.creator.Latteshttp://lattes.cnpq.br/7793457726526468pt_BR
dc.date.accessioned2021-09-20T00:05:28Z-
dc.date.available2021-09-20T00:05:28Z-
dc.date.issued2021-04-28-
dc.identifier.urihttp://hdl.handle.net/1843/38085-
dc.description.abstractA preservação da privacidade na divulgação de dados estatísticos tem sido uma preocupação da comunidade científica há décadas. Essa preocupação tem se expandido gradualmente para fora da academia e tem se refletido na promulgação e no reforço generalizado da legislação de proteção à privacidade em todo o mundo. No Brasil, a nova lei de privacidade promulgada em 2018 (LGPD) estabelece restrições obrigatórias aos órgãos governamentais que divulgam publicamente dados sobre pessoas físicas e prescreve sanções em caso de não conformidade. Nesse contexto, é fundamental que essas agências revisem minuciosamente e, se necessário, adaptem seus métodos atuais de publicação de dados. No entanto, é bem conhecido que qualquer método de controle de divulgação aplicado à liberação de dados estatísticos pode apresentar efeitos deletérios na utilidade dos dados, ou seja, na qualidade da informação fornecida aos consumidores legítimos, como analistas e a sociedade como um todo. Um equilíbrio preciso entre privacidade e utilidade deve ser alcançado, levando em consideração os interesses de várias partes, incluindo proprietários de dados, consumidores legítimos de dados e o governo. Nesta dissertação, fornecemos um estudo quantitativo completo dos riscos à privacidade na divulgação dos Censos Educacionais Brasileiros oficiais fornecidos anualmente pelo INEP, que é o órgão governamental brasileiro responsável pelo desenvolvimento e manutenção de sistemas de estatísticas educacionais. Mais precisamente, analisamos formalmente os riscos de privacidade em bancos de dados divulgados como microdados, i.e. dados no nível de registro de cada indivíduo, e protegidos pela técnica de desidentificação, i.e. a remoção de informações de identificação direta, como nomes de indivíduos ou números de identificação pessoal. Para tanto, propomos um sistema unificado de classificação de ataques, que nos permite cobrir e formalizar adequadamente o panorama de riscos à privacidade nos Censos Educacionais. Nossa primeira contribuição são modelos de ataques rigorosamente formalizados no framework de fluxo de informação quantitativa, definidos ao longo de três dimensões ortogonais: (i) risco de reidentificação vs. risco de inferência de atributos; (ii) ataques a uma única base de dados vs. ataques a bases de dados longitudinais, i.e. aquelas que são atualizadas e ampliadas com frequência, como no caso dos Censos do INEP; e (iii) medidas determinísticas vs. probabilísticas de risco de privacidade. Como uma segunda contribuição, empregamos nossos modelos formais para obter avaliações quantitativas extensas de riscos de privacidade nas bases de dados dos Censos Educacionais do INEP, que respondem por mais de cinquenta milhões de alunos, ou cerca de 25% da população atual do país. Esses experimentos mostram inequivocamente que os métodos atuais de controle de divulgação do INEP são insuficientes para garantir a privacidade dos indivíduos em qualquer nível aceitável e, portanto, podem estar em desacordo com a nova legislação de privacidade do Brasil. Por exemplo, 81,13% dos alunos no Censo Escolar de 2019, correspondendo a aproximadamente 39.085.531 indivíduos, podem estar sujeitos a reidentificação completa sob ataques razoavelmente modestos. Argumentamos, portanto, que o INEP deve abandonar as práticas atuais e considerar métodos de controle de divulgação mais rígidos. Como uma terceira contribuição, avaliamos formalmente o trade-off entre privacidade e utilidade em duas variantes de privacidade diferencial --a técnica de controle de divulgação padrão-ouro na literatura-- como o método a ser empregado para divulgação dos Censos Educacionais do INEP. Nossos resultados confirmam que a privacidade diferencial global tende a favorecer a utilidade em relação à privacidade, enquanto a privacidade diferencial local tende a agir de forma oposta. Até onde sabemos, nossas análises são as mais extensas desse tipo na literatura. Além disso, nossos resultados fornecem ao INEP evidências empíricas sólidas para orientar decisões futuras bem informadas ao cumprir a nova legislação de privacidade do Brasil e têm o potencial de impactar positivamente uma fração significativa da população brasileira.pt_BR
dc.description.resumoPrivacy preservation in the release of statistical data has been a concern of the scientific community for decades. This preoccupation has been gradually expanding to outside of academia, and has been reflected in the widespread enactment and reinforcement of privacy-protection legislation around the world. In Brazil, the new privacy law enacted in 2018 (LGPD) establishes mandatory restrictions on governmental agencies that publicly release data on individuals, and prescribes sanctions in case of non-compliance. In this context, it is paramount for those agencies to thoroughly review and, if necessary, adapt their current methods of data publishing. However, it is well known that any disclosure control method applied to the release of statistical data may present deleterious effects on data utility, i.e. on the quality of information provided to legitimate consumers, such as analysts and society as a whole. A fine balance between privacy and utility must be achieved, taking into consideration the interests of several stakeholders, including data owners, legitimate data consumers, and the government. In this thesis, we provide a thorough quantitative study of privacy risks in the release of the official Brazilian Educational Censuses provided annually by INEP, which is Brazil's governmental agency responsible for the development and maintenance of educational statistics systems. More precisely, we formally analyze privacy risks in databases released as microdata, i.e. data at each individual's record level, and protected by the technique of de-identification, i.e. the removal of direct identifying information such as the individuals' names or personal identification numbers. In order to do so, we propose a unified classification system for attacks, which allows us to properly cover and formalize the landscape of privacy risks in the Educational Censuses. Our first contribution are models of attacks rigorously formalized in the framework of quantitative information flow, defined along three orthogonal dimensions: (i) risk of re-identification vs. risk of attribute-inference; (ii) attacks on a single database vs. attacks on longitudinal databases, i.e. those that are updated and extended frequently, as in the case of INEP's Censuses; and (iii) deterministic vs. probabilistic measures of privacy risk. As a second contribution, we employ our formal models to obtain extensive quantitative evaluations of privacy risks on INEP's Educational Census databases, which account for more than fifty million students, or around 25% of the country's current population. Those experiments unequivocally show that INEP's current disclosure control methods are insufficient to guarantee individuals' privacy at any acceptable level, and therefore may be in contempt with Brazil's new privacy legislation. For instance, 81.13% of students in the School Census of 2019, corresponding to approximately 39,085,531 individuals, may be subject to complete re-identification under reasonably modest attacks. We argue, therefore, that INEP should abandon current practices and consider stricter disclosure control methods. As a third contribution, we formally evaluate the trade-off between privacy and utility in two variants of differential privacy --the golden standard disclosure control technique in the literature-- as the method to be employed to INEP's Educational Censuses releases. Our results confirm that global differential privacy tends to favor utility over privacy, whereas local differential privacy tends to act in the opposite way. To the best of our knowledge, our analyses are the most extensive of its kind in the literature. Furthermore, our results provide INEP with solid empirical evidence to guide well-informed future decisions when complying to Brazil's new privacy legislation, and have the potential to positively impact a significant fraction of the Brazilian population.pt_BR
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológicopt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃOpt_BR
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/*
dc.subjectQuantitative Information Flowpt_BR
dc.subjectDisclosure Controlpt_BR
dc.subjectMicrodatapt_BR
dc.subjectDifferential Privacypt_BR
dc.subjectPrivacypt_BR
dc.subjectUtilitypt_BR
dc.subject.otherComputação – Tesespt_BR
dc.subject.otherTeoria da Informação – Teses.pt_BR
dc.subject.otherFluxo de Informação Quantitativo – Teses.pt_BR
dc.subject.otherDados estatísticos – Direito a privacidade – Teses.pt_BR
dc.subject.otherCenso escolar – Brasil – Teses.pt_BR
dc.titleA formal quantitative study of privacy in the publication of official educational censuses in Brazilpt_BR
dc.title.alternativeUm estudo quantitativo formal sobre privacidade na publicação dos censos educacionais oficiais no Brasilpt_BR
dc.typeDissertaçãopt_BR
dc.identifier.orcidhttps://orcid.org/0000-0002-7823-3061pt_BR
Appears in Collections:Dissertações de Mestrado



This item is licensed under a Creative Commons License Creative Commons