Aprendizado de máquina para previsão do tempo de execução de aplicações Spark

Descrição

Tipo

Artigo de evento

Título alternativo

Primeiro orientador

Membros da banca

Resumo

Aplicações de big data têm associada uma série de problemas desafiadores envolvendo a alocação de recursos de hardware e software. Tipicamente, essas aplicações são conhecidas por serem computacionalmente custosas e por possuírem uma grande heterogeneidade e irregularidades na forma em que operam, tornando desafiadora a tarefa de estimar os tempos de conclusão de resultados. Embora esta seja uma tarefa difícil, ainda assim é possível buscar uma relação entre atributos extraídos da configuração do ambiente de execução e do conjunto de dados de entrada e o tempo total de execução de certas aplicações. Tal relação pode ser utilizada na predição do tempo de execução a partir apenas destes atributos. Este trabalho parte desta premissa e explora modelos de aprendizado de máquina para a previsão de tempos de execução de aplicações na plataforma Spark, popular na área de processamento de dados em larga escala. O trabalho investiga quatro modelos e diferentes atributos, além de comparar os resultados com o estado-da-arte atual. Todos os modelos são avaliados em diversos cenários e configurações, produzindo resultados significativamente melhores que o estado-da-arte em alguns casos.

Abstract

The rise of big data applications brought along a series of difficult challenges regarding the allocation of hardware and software resources. Typically these applications are known for being computationally expensive and having high heterogeneity on how they operate, making the task of estimating application’s execution time very challenging. It may be still possible to correlate features extracted from the cloud environment and from the input dataset to the execution time. Such relationship may then be used to predict execution times. Based on such assumption, this work explores machine learning (ML) models to the task of predict execution time of Spark applications. This work investigates four ML models as well as different features, while also comparing their results against the current state-of-the-art. All models are evaluated in several scenarios and configurations, producing results that are significantly superior to the state-of-the-art in various cases.

Assunto

Sistemas distribuídos, Big data, Aprendizado de máquina

Palavras-chave

Sistemas distribuídos, Big data, Spark, Aprendizado de máquina

Citação

Curso

Endereço externo

https://sol.sbc.org.br/index.php/sbrc/article/view/7360

Avaliação

Revisão

Suplementado Por

Referenciado Por