Métodos de Krylov aplicados na análise de regressão linear de Big Data

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Dissertação de mestrado

Título alternativo

Krylov Methods applied to linear regression analysis of Big Data

Primeiro orientador

Membros da banca

Cristiano de Carvalho Santos
Gilvan Ramalho Guedes

Resumo

O crescente uso de bases de dados enormes e complexas, chamadas de Big Data, torna necessária uma otimização dos métodos tradicionais de análise de dados para viabilizar sua aplicação nesse tipo de dados. Mesmo métodos de análise estatística considerados simples, como a regressão linear, são ineficientes quando aplicados na sua forma tradicional a Big Data, devido ao seu alto custo computacional. Por consequência, exigem adaptações. O presente trabalho trata da aplicação em dados considerados Big Data de uma classe de algoritmos, os Métodos de Krylov, a fim de se estimar os parâmetros da regressão linear eficientemente. Esses métodos retornam uma aproximação da solução do problema dos mínimos quadrados a cada iteração, sendo computacionalmente mais econômicos para se obter uma estimativa satisfatória da solução quando comparados a métodos tradicionais, como o método da decomposição QR aplicado ao problema dos mínimos quadrados. Dois métodos de Krylov são apresentados e estudados no texto: o Generalized Minimum Residuals (GMRES) e o LSMR, com um grande foco no último. Por fim, para avaliar o desempenho do LSMR, são apresentados vários estudos de simulações em bases de dados de diferentes dimensionalidades, todas consideradas Big Data, junto com aplicações em conjuntos de dados reais, também considerados Big Data. O desempenho foi medido comparando algumas métricas resultantes dos estudos do LSMR, como o tempo de execução do algoritmo, com as métricas resultantes do método direto da decomposição QR, aplicado ao problema dos mínimos quadrados. Além disso, as mesmas métricas foram usadas para comparar o LSMR com outros dois métodos de Krylov, o LSQR e o método dos Gradientes Conjugados. No geral, observou-se um melhor desempenho do LSMR quanto ao tempo de execução, fornecendo estimativas de soluções equivalentes ou, em alguns casos, melhores às dos demais métodos avaliados.

Abstract

The increasing use of massive and complex databases, known as Big Data, renders the optimization of traditional data analysis methods necessary to enable their application to this type of information. Even statistical analysis methods considered simple, such as linear regression, are inefficient when applied in their traditional form to Big Data due to their high computational cost. Consequently, they require adaptations. This paper addresses the application of the Krylov Methods, a class of algorithms, to Big Data to efficiently estimate parameters for linear regression. These methods return an approximation of the solution to the least squares problem at each iteration, being computationally more economical to obtain a satisfactory estimate of the solution compared to other traditional methods, such as the QR decomposition method applied to the least squares problem. Two Krylov methods are presented and studied in the text: the Generalized Minimum Residuals (GMRES) and LSMR, with a strong focus on the latter. Finally, to evaluate the performance of LSMR, several simulation studies are presented in databases of different dimensionalities, along with applications in real datasets, all considered Big Data. Performance was measured by comparing metrics resulting from the LSMR studies, such as the execution time of the algorithm, with those resulting from the direct method of QR decomposition applied to the least squares problem. In addition, the same approach was employed to correlate LSMR with two other Krylov methods, LSQR and the Conjugate Gradient method. Overall, LSMR performed better regarding execution time, providing estimates of solutions similar to or even better than the other methods evaluated.

Assunto

Estatística – Teses, Análise de regressão – Teses, Álgebra linear - Teses, Big data – Teses, Mínimos quadrados – Processamento de dados – Teses

Palavras-chave

Regressão linear, Métodos de Krylov, Big data, Álgebra linear numérica.

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto