Coordenadas sintéticas em bancos de dados confidenciais: uma aplicação em dados de covid-19
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Primeiro orientador
Membros da banca
Victor Hugo Lachos Dávila
Vinícius Diniz Mayrink
Vinícius Diniz Mayrink
Resumo
Muitos dados coletados por agências possuem características confidenciais e informações sensíveis, portanto as instituições de pesquisa devem obedecer protocolos legais e éticos para não divulgar tais informações de maneira indiscriminada. Este trabalho utiliza a metodologia de dados sintéticos e imputação múltipla que são técnicas desenvolvidas para a divulgação segura de dados sensíveis, uma vez que apresentam uma maior preservação da utilidade dos dados. Esse método substitui os valores originais por valores simulados utilizando distribuições de probabilidades ajustadas aos valores originais, podendo ser aplicado para substituir parcialmente ou completamente os dados originais. O modelo de [26] e atualizado por [25], utiliza essa metodologia para gerar coordenadas geográficas sintéticas, entretanto não existia no modelo a previsão de espaços não habitáveis, como por exemplo aeroporto e lagoas. Portanto, contribuímos com a inclusão de tais espaços e denominamos eles como áreas restritas (espaços em que não existem habitações de indivíduos). Para avaliar essa contribuição no modelo, utilizamos um banco de dados simulado e representamos graficamente os resultados da aplicação com e sem a inclusão das áreas restritas. Por fim, realizamos a aplicação em um banco de dados de casos de COVID-19 da cidade de Montes Claros - MG, e pudemos comprovar a importância da inclusão de espaços inabitáveis nos dados para geração das coordenadas sintéticas.
Abstract
Many data collected by agencies have confidential characteristics and sensitive information, so research institutions must obey legal and ethical protocols not to disclose such information indiscriminately. This work uses the methodology of synthetic data and multiple imputation, which are techniques developed for the safe disclosure of sensitive data, since they present a greater preservation of the usefulness of the data. This method replaces the original values with simulated values using probability distributions fitted to the original values, and can be applied to replace partially or completely the original data. The model by [26] and updated by [25], uses this methodology to generate synthetic geographic coordinates, however the model did not include the prediction of non-inhabitable spaces, such as airports and lakes. Therefore, we contribute to the inclusion of such spaces and call them restricted areas (spaces where individuals do not live). To evaluate this contribution in the model, we used a simulated database and graphically represented the results of the application with and without the inclusion of restricted areas. Finally, we carried out the application in a database of COVID-19 cases in the city of Montes Claros - MG, and we were able to prove the importance of including uninhabitable spaces in the data for the generation of synthetic coordinates.
Assunto
Estatística – Teses, Análise espacial (Estatística) – Teses, Saúde pública – Estatística – Dados não estruturados - Teses
Palavras-chave
Dados Sintéticos, Confidencialidade, Coordenadas Geográficas Sintéticas, Estatística Espacial