Imputation of missing data using gaussian linear Cluster-Weighted Modeling

Luis Alejandro Masmela Caita

Imputation of missing data using gaussian linear Cluster-Weighted Modeling

Arquivos

Thesis Imputation of Missing Data Using Gaussian Linear Cluster-Weighted Modeling SHB .pdf (16.1 MB)

Data

2021-03-26

Autor(es)

Luis Alejandro Masmela Caita

Editor

Universidade Federal de Minas Gerais

Tipo

Tese de doutorado

Título alternativo

Imputação de dados faltantes usando Cluster-Weighted Modeling linear gausiana

Primeiro orientador

Thaís Paiva Galleti

Membros da banca

Lourdes Coral Contreras Montenegro
Rosangela Helena Loschi
Camila Borelli Zeller
Daniel Manrique-Vallier

Resumo

Missing data occurs when some values are not stored or observed for variables of interest. However, most of the statistical theory assumes that data is fully observed. An alternative to deal with incomplete databases is to fill in the spaces corresponding to the missing information based on some criteria, this technique is called imputation. We introduce a new imputation methodology for databases with non-response units using additional information from fully observed auxiliary variables. We assume that the non-observed variables are continuous, and that auxiliary variables assist to improve the imputation capacity of the model. In a fully Bayesian framework, our method uses a flexible mixture of multivariate normal distributions to model the response and the auxiliary variables jointly. Under this framework, we use the properties of Gaussian Cluster-Weighted modeling to construct a predictive model to impute the missing values using the information from the covariates. Simulations studies and a real data illustration are presented to show the method imputation capacity under a variety of scenarios and in comparison to other literature methods.

Abstract

Dados ausentes ocorrem quando alguns valores não são armazenados ou observados para variáveis de interesse. No entanto, a maior parte da teoria estatística assume que os dados são totalmente observados. Uma alternativa para lidar com bases de dados incompletas é preencher os espaços correspondentes às informações faltantes com base em alguns critérios, essa técnica é chamada de imputação. Apresentamos uma nova metodologia de imputação para bancos de dados com unidades de não resposta usando informações adicionais de variáveis auxiliares totalmente observadas. Assumimos que as variáveis não observadas são contínuas e que as variáveis auxiliares ajudam a melhorar a capacidade de imputação do modelo. Em uma estrutura totalmente Bayesiana, nosso método usa uma mistura flexível de distribuições normais multivariadas para modelar a resposta e as variáveis auxiliares em conjunto. Sob essa estrutura, usamos as propriedades da modelagem Gaussian Cluster-Weighted para construir um modelo preditivo para imputar os valores ausentes usando as informações das covariáveis. Estudos de simulação e uma ilustração de dados reais são apresentados para mostrar a capacidade de imputação do método sob uma variedade de cenários e em comparação com outros métodos da literatura.

Assunto

Estatística – Teses., Correlação (Estatistica) – Teses., Crítica de imputação de dados (Estatística) – Teses., Ausência de dados (Estatística) – Teses., Processos gaussianos – Teses

Palavras-chave

Cluster-Weighted Modeling, Gaussian mixture models, Imputation method, Missing data

URI

https://hdl.handle.net/1843/38120

Departamento

ICX - DEPARTAMENTO DE ESTATÍSTICA

Curso

Programa de Pós-Graduação em Estatística

Coleções

Pós-Graduação em Estatística - Teses

Página do item completo

Imputation of missing data using gaussian linear Cluster-Weighted Modeling

Arquivos

Data

Autor(es)

Título da Revista

ISSN da Revista

Título de Volume

Editor

Descrição

Tipo

Título alternativo

Primeiro orientador

Membros da banca

Resumo

Abstract

Assunto

Palavras-chave

Citação

URI

Departamento

Curso

Endereço externo

Coleções

Avaliação

Revisão

Suplementado Por

Referenciado Por