Métodos de Krylov aplicados na análise de regressão linear de Big Data
Carregando...
Arquivos
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Krylov Methods applied to linear regression analysis of Big Data
Primeiro orientador
Membros da banca
Cristiano de Carvalho Santos
Gilvan Ramalho Guedes
Gilvan Ramalho Guedes
Resumo
O crescente uso de bases de dados enormes e complexas, chamadas de Big Data, torna necessária uma otimização dos métodos tradicionais de análise de dados para viabilizar sua aplicação nesse tipo de dados. Mesmo métodos de análise estatística considerados simples, como a regressão linear, são ineficientes quando aplicados na sua forma tradicional a Big Data, devido ao seu alto custo computacional. Por consequência, exigem adaptações. O presente trabalho trata da aplicação em dados considerados Big Data de uma classe de algoritmos, os Métodos de Krylov, a fim de se estimar os parâmetros da regressão linear eficientemente. Esses métodos retornam uma aproximação da solução do problema dos mínimos quadrados a cada iteração, sendo computacionalmente mais econômicos para se obter uma estimativa satisfatória da solução quando comparados a métodos tradicionais, como o método da decomposição QR aplicado ao problema dos mínimos quadrados. Dois métodos de Krylov são apresentados e estudados no texto: o Generalized Minimum Residuals (GMRES) e o LSMR, com um grande foco no último.
Por fim, para avaliar o desempenho do LSMR, são apresentados vários estudos de simulações em bases de dados de diferentes dimensionalidades, todas consideradas Big Data, junto com aplicações em conjuntos de dados reais, também considerados Big Data. O desempenho foi medido comparando algumas métricas resultantes dos estudos do LSMR, como o tempo de execução do algoritmo, com as métricas resultantes do método direto da decomposição QR, aplicado ao problema dos mínimos quadrados. Além disso, as mesmas métricas foram usadas para comparar o LSMR com outros dois métodos de Krylov, o LSQR e o método dos Gradientes Conjugados. No geral, observou-se um melhor desempenho do LSMR quanto ao tempo de execução, fornecendo estimativas de soluções equivalentes ou, em alguns casos, melhores às dos demais métodos avaliados.
Abstract
The increasing use of massive and complex databases, known as Big Data, renders the optimization of traditional data analysis methods necessary to enable their application to this type of information. Even statistical analysis methods considered simple, such as linear regression, are inefficient when applied in their traditional form to Big Data due to their high computational cost. Consequently, they require adaptations. This paper addresses the application of the Krylov Methods, a class of algorithms, to Big Data to efficiently estimate parameters for linear regression. These methods return an approximation of the solution to the least squares problem at each iteration, being computationally more economical to obtain a satisfactory estimate of the solution compared to other traditional methods, such as the QR decomposition method applied to the least squares problem. Two Krylov methods are presented and studied in the text: the Generalized Minimum Residuals (GMRES) and LSMR, with a strong focus on the latter.
Finally, to evaluate the performance of LSMR, several simulation studies are presented in databases of different dimensionalities, along with applications in real datasets, all considered Big Data. Performance was measured by comparing metrics resulting from the LSMR studies, such as the execution time of the algorithm, with those resulting from the direct method of QR decomposition applied to the least squares problem. In addition, the same approach was employed to correlate LSMR with two other Krylov methods, LSQR and the Conjugate Gradient method. Overall, LSMR performed better regarding execution time, providing estimates of solutions similar to or even better than the other methods evaluated.
Assunto
Estatística – Teses, Análise de regressão – Teses, Álgebra linear - Teses, Big data – Teses, Mínimos quadrados – Processamento de dados – Teses
Palavras-chave
Regressão linear, Métodos de Krylov, Big data, Álgebra linear numérica.
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
