Coordenadas sintéticas em bancos de dados confidenciais: uma aplicação em dados de covid-19

dc.creatorFernanda Buzza Alves Barros
dc.date.accessioned2023-10-30T15:46:41Z
dc.date.accessioned2025-09-08T23:18:39Z
dc.date.available2023-10-30T15:46:41Z
dc.date.issued2023-08-15
dc.description.abstractMany data collected by agencies have confidential characteristics and sensitive information, so research institutions must obey legal and ethical protocols not to disclose such information indiscriminately. This work uses the methodology of synthetic data and multiple imputation, which are techniques developed for the safe disclosure of sensitive data, since they present a greater preservation of the usefulness of the data. This method replaces the original values with simulated values using probability distributions fitted to the original values, and can be applied to replace partially or completely the original data. The model by [26] and updated by [25], uses this methodology to generate synthetic geographic coordinates, however the model did not include the prediction of non-inhabitable spaces, such as airports and lakes. Therefore, we contribute to the inclusion of such spaces and call them restricted areas (spaces where individuals do not live). To evaluate this contribution in the model, we used a simulated database and graphically represented the results of the application with and without the inclusion of restricted areas. Finally, we carried out the application in a database of COVID-19 cases in the city of Montes Claros - MG, and we were able to prove the importance of including uninhabitable spaces in the data for the generation of synthetic coordinates.
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.identifier.urihttps://hdl.handle.net/1843/60244
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectEstatística – Teses
dc.subjectAnálise espacial (Estatística) – Teses
dc.subjectSaúde pública – Estatística – Dados não estruturados - Teses
dc.subject.otherDados Sintéticos
dc.subject.otherConfidencialidade
dc.subject.otherCoordenadas Geográficas Sintéticas
dc.subject.otherEstatística Espacial
dc.titleCoordenadas sintéticas em bancos de dados confidenciais: uma aplicação em dados de covid-19
dc.typeDissertação de mestrado
local.contributor.advisor-co1Marcos Oliveira Prates
local.contributor.advisor1Thaís Paiva Galletti
local.contributor.advisor1Latteshttp://lattes.cnpq.br/6313658269652848
local.contributor.referee1Victor Hugo Lachos Dávila
local.contributor.referee1Vinícius Diniz Mayrink
local.creator.Latteshttp://lattes.cnpq.br/2554654003098795
local.description.resumoMuitos dados coletados por agências possuem características confidenciais e informações sensíveis, portanto as instituições de pesquisa devem obedecer protocolos legais e éticos para não divulgar tais informações de maneira indiscriminada. Este trabalho utiliza a metodologia de dados sintéticos e imputação múltipla que são técnicas desenvolvidas para a divulgação segura de dados sensíveis, uma vez que apresentam uma maior preservação da utilidade dos dados. Esse método substitui os valores originais por valores simulados utilizando distribuições de probabilidades ajustadas aos valores originais, podendo ser aplicado para substituir parcialmente ou completamente os dados originais. O modelo de [26] e atualizado por [25], utiliza essa metodologia para gerar coordenadas geográficas sintéticas, entretanto não existia no modelo a previsão de espaços não habitáveis, como por exemplo aeroporto e lagoas. Portanto, contribuímos com a inclusão de tais espaços e denominamos eles como áreas restritas (espaços em que não existem habitações de indivíduos). Para avaliar essa contribuição no modelo, utilizamos um banco de dados simulado e representamos graficamente os resultados da aplicação com e sem a inclusão das áreas restritas. Por fim, realizamos a aplicação em um banco de dados de casos de COVID-19 da cidade de Montes Claros - MG, e pudemos comprovar a importância da inclusão de espaços inabitáveis nos dados para geração das coordenadas sintéticas.
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE ESTATÍSTICA
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Estatística

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Coordenadas sintéticas em bancos de dados confidenciais uma aplicação em dados de covid-19.pdf
Tamanho:
14.89 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: