Métodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacy

dc.creatorAugusto Felix Marcolin
dc.date.accessioned2019-08-10T19:44:25Z
dc.date.accessioned2025-09-09T00:21:09Z
dc.date.available2019-08-10T19:44:25Z
dc.date.issued2018-02-23
dc.description.abstractTheamountofdataproducedindigitalerahasincreasedinthelastdecades. Awareof this, companies and organizations have been making all necessary eorts to analyze this amount of information. However, the attention concerning privacy of individuals records is increasing. In this sense, the data privacy area emerges with the goal to guarantee users anonymity in researches. Given that, this work shows anonymization methods for binary and categorical data, using the concept of dierential privacy synthetic data. We also present inferential techniques to analyze this kind of data. First, we recreate and complement the scenarios proposed by Charest (2011) to binary anonymized data. We then extend the model to categorical variables. Lastly, we apply the anonymization and inferential techniques to a real dataset of car insurance claims in Brazil in 2016 for the metropolian region of Belo Horizonte and Zona da Mata. On the results, we noticed that there is some information loss when the methodology of dierential privacy synthetic data is applied. However, using the appropriate techniques to make inference can provide accurate estimates.
dc.identifier.urihttps://hdl.handle.net/1843/BUOS-B4HGDL
dc.languagePortuguês
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectEstatistica
dc.subjectProteção de dados
dc.subject.otherDados Sintéticos
dc.subject.otherDierential Privacy
dc.subject.otherData Privacy
dc.titleMétodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacy
dc.typeDissertação de mestrado
local.contributor.advisor1Thais Paiva Galletti
local.contributor.referee1Marcos Oliveira Prates
local.contributor.referee1Pedro Olmo Stancioli Vaz de Melo
local.description.resumoA quantidade de dados produzidos no mundo digital tem crescido exponencialmente nas últimas décadas. Atentas a este fato, empresas e organizações não tem medido esforços para analisar toda essa gama de informação. Contudo, há um crescimento na preocupação acerca da privacidade da informação das pessoas. Nesse contexto, surge a àrea de data privacy, cujo objetivo é garantir anonimização das informações em bases de dados. Tendo em vista o problema exposto, este trabalho apresenta métodos para anonimização de variáveis binárias e categóricas, através de geração de bases sintéticas sob garantia de dierential privacy. Também apresentamos técnicas de inferência para lidar com esse tipo de dado. Inicialmente recriamos e complementamos o estudo de Charest (2011) no âmbito de variáveis binárias anonimizadas. Posteriormente, estendemos o modelo para variáveis de múltiplas categorias. Por m, aplicamos as técnicas de anonimização e inferenciais em uma base de dados da SUSEP(Superintendência de Seguros Privados) a respeito de roubos de carros e indenizações de seguradoras, para o ano de 2016 na região metropolitana de Belo Horizonte e Zona da Mata. Quanto aos resultados, observamos que há uma perda de informação quando utilizamos a metodologia de bases sintéticas sob garantia dedierential privacy. Porém, utilizando as técnicas apropriadas para fazer inferência podemos obter estimativas precisas.
local.publisher.initialsUFMG

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
augusto_marcolin.pdf
Tamanho:
1.65 MB
Formato:
Adobe Portable Document Format