Métodos de Krylov aplicados na análise de regressão linear de Big Data

dc.creatorArthur Mota Silva Dantés Macedo
dc.date.accessioned2025-04-02T15:48:40Z
dc.date.accessioned2025-09-09T00:12:03Z
dc.date.available2025-04-02T15:48:40Z
dc.date.issued2025-03-07
dc.description.abstractThe increasing use of massive and complex databases, known as Big Data, renders the optimization of traditional data analysis methods necessary to enable their application to this type of information. Even statistical analysis methods considered simple, such as linear regression, are inefficient when applied in their traditional form to Big Data due to their high computational cost. Consequently, they require adaptations. This paper addresses the application of the Krylov Methods, a class of algorithms, to Big Data to efficiently estimate parameters for linear regression. These methods return an approximation of the solution to the least squares problem at each iteration, being computationally more economical to obtain a satisfactory estimate of the solution compared to other traditional methods, such as the QR decomposition method applied to the least squares problem. Two Krylov methods are presented and studied in the text: the Generalized Minimum Residuals (GMRES) and LSMR, with a strong focus on the latter. Finally, to evaluate the performance of LSMR, several simulation studies are presented in databases of different dimensionalities, along with applications in real datasets, all considered Big Data. Performance was measured by comparing metrics resulting from the LSMR studies, such as the execution time of the algorithm, with those resulting from the direct method of QR decomposition applied to the least squares problem. In addition, the same approach was employed to correlate LSMR with two other Krylov methods, LSQR and the Conjugate Gradient method. Overall, LSMR performed better regarding execution time, providing estimates of solutions similar to or even better than the other methods evaluated.
dc.description.sponsorshipFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais
dc.identifier.urihttps://hdl.handle.net/1843/81230
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc/3.0/pt/
dc.subjectEstatística – Teses
dc.subjectAnálise de regressão – Teses
dc.subjectÁlgebra linear - Teses
dc.subjectBig data – Teses
dc.subjectMínimos quadrados – Processamento de dados – Teses
dc.subject.otherRegressão linear
dc.subject.otherMétodos de Krylov
dc.subject.otherBig data
dc.subject.otherÁlgebra linear numérica.
dc.titleMétodos de Krylov aplicados na análise de regressão linear de Big Data
dc.title.alternativeKrylov Methods applied to linear regression analysis of Big Data
dc.typeDissertação de mestrado
local.contributor.advisor1Thiago Rezende dos Santos
local.contributor.advisor1Latteshttp://lattes.cnpq.br/9458275921031976
local.contributor.referee1Cristiano de Carvalho Santos
local.contributor.referee1Gilvan Ramalho Guedes
local.creator.Latteshttps://lattes.cnpq.br/4711173734218304
local.description.resumoO crescente uso de bases de dados enormes e complexas, chamadas de Big Data, torna necessária uma otimização dos métodos tradicionais de análise de dados para viabilizar sua aplicação nesse tipo de dados. Mesmo métodos de análise estatística considerados simples, como a regressão linear, são ineficientes quando aplicados na sua forma tradicional a Big Data, devido ao seu alto custo computacional. Por consequência, exigem adaptações. O presente trabalho trata da aplicação em dados considerados Big Data de uma classe de algoritmos, os Métodos de Krylov, a fim de se estimar os parâmetros da regressão linear eficientemente. Esses métodos retornam uma aproximação da solução do problema dos mínimos quadrados a cada iteração, sendo computacionalmente mais econômicos para se obter uma estimativa satisfatória da solução quando comparados a métodos tradicionais, como o método da decomposição QR aplicado ao problema dos mínimos quadrados. Dois métodos de Krylov são apresentados e estudados no texto: o Generalized Minimum Residuals (GMRES) e o LSMR, com um grande foco no último. Por fim, para avaliar o desempenho do LSMR, são apresentados vários estudos de simulações em bases de dados de diferentes dimensionalidades, todas consideradas Big Data, junto com aplicações em conjuntos de dados reais, também considerados Big Data. O desempenho foi medido comparando algumas métricas resultantes dos estudos do LSMR, como o tempo de execução do algoritmo, com as métricas resultantes do método direto da decomposição QR, aplicado ao problema dos mínimos quadrados. Além disso, as mesmas métricas foram usadas para comparar o LSMR com outros dois métodos de Krylov, o LSQR e o método dos Gradientes Conjugados. No geral, observou-se um melhor desempenho do LSMR quanto ao tempo de execução, fornecendo estimativas de soluções equivalentes ou, em alguns casos, melhores às dos demais métodos avaliados.
local.publisher.countryBrasil
local.publisher.departmentICEX - INSTITUTO DE CIÊNCIAS EXATAS
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Estatística

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação_ArthurMota.pdf
Tamanho:
1.55 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: