Imputation by decomposition and by time series nature : novel imputation methods for missing data in time series
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Imputação por decomposição e pela natureza da série temporal : novos métodos de imputação para dados ausentes em séries temporais
Primeiro orientador
Membros da banca
Luis Antonio Aguirre
Frederico Gadelha Guimarães
Frederico Gadelha Guimarães
Resumo
Dealing with missingness in time series data is a very important, but oftentimes overlooked,
step in data analysis. In this dissertation, the pattern of time series data and missingness
mechanisms are described to help identify which imputation method should be used to
impute missing data, along with a review of imputation methods and how they work.
Recommended methods from literature are used to impute synthetic data of different
pattern and the results are discussed. In this dissertation, two new methods to impute
missing time steps are presented and compared to other classical imputation methods, as
well as state-of-the-art methods. The first imputation method presented is Imputation by
Pattern. This method is based on the premise that imputing the data using the literature-
recommended methods will achieve the best results. Heuristics are proposed to separate
the time series by pattern. The second imputation method presented is Imputation by
Decomposition. This method consists in decomposing the time series in its components
and then imputing them using the literature-recommended methods. The combination of
these methods and the Kalman filter are also tested. The discussed imputation methods
are used to impute a financial indexes and instability trackers data set, a COVID-19 data
set and a deng data set and then predictions are made and the results are presented. The
Imputation by Pattern method combined with the Kalman filter achieved consistently
satisfactory results, although it did not always achieve the best results. The Imputation
by Decomposition method achieved good results, specially when some time was spent
investigating which variation worked better with each data set. Overall, both imputation
method achieved similar, and in some cases, better results than the classical imputation
methods.
Abstract
Um passo importante, porém muitas vezes negligenciado, durante a análise de dados de
séries temporais é a imputação de dados ausentes. Nessa dissertação, as características de
séries temporais e mecanismos de perda são descritos para ajudar na identificação de qual
método de imputação deve ser utilizado para imputar dados ausentes, juntamente com
uma revisão bibliográfica de métodos de imputação e seu funcionamento. Os métodos de
imputação recomendados pela literatura são utilizados para imputar dados sintéticos com
diferentes características e os resultados são discutidos. Dois novos métodos de imputação
de séries temporais são apresentados e comparados com métodos de imputação clássicos e
métodos do estado-da-arte. O primeiro método de imputação apresentado é o de Imputação
pelo Padrão. Esse método se baseia na premissa que utilizando-se o método de imputação
recomendado pela literatura para cada padrão de série temporal se obterá os melhores
resultados. Heurísticas de separação das séries temporais por padrão foram desenvolvidas. O
segundo método apresentado é o de Imputação por Decomposição. Esse método consiste em
decompor a série temporal e depois imputar cada um de seus componentes pelos métodos
recomendados pela literatura. As combinações desses métodos e o filtro de Kalman também
foram testados. Os métodos de imputação discutidos são utilizados para imputar dados de
índices financeiros e rastreadores de instabilidade, dados sobre a COVID-19 e dados sobre
a dengue. Predições são realizadas com os dados dos casos de estudo e os resultados são
apresentados. Os resultados obtidos pelo método de Imputação por Padrão combinado
com o filtro de Kalman são consistentemente satisfatórios, apesar de nem sempre obter
os melhores resultados. O método de Imputação por Decomposição também obteve bons
resultados, principalmente quando algum tempo foi gasto para investigar qual de suas
variações se adequou melhor a cada conjunto de dados. No geral, ambos os métodos
mostraram resultados similares e/ou melhores que os métodos de imputação clássicos.
Assunto
Engenharia elétrica, Análise de séries temporais, Ausência de dados (Estatística), Ciências sociais - Métodos estatísticos
Palavras-chave
Missing data, Time series, Imputation methods, Decomposition, Pattern
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
