Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/74092
Type: Artigo de Evento
Title: Aprendizado de máquina para previsão do tempo de execução de aplicações Spark
Authors: Fabrício Murai Ferreira
Ana Paula Couto da Silva
Alexandre Maros
Jussara M. Almeida
Abstract: Aplicações de big data têm associada uma série de problemas desafiadores envolvendo a alocação de recursos de hardware e software. Tipicamente, essas aplicações são conhecidas por serem computacionalmente custosas e por possuírem uma grande heterogeneidade e irregularidades na forma em que operam, tornando desafiadora a tarefa de estimar os tempos de conclusão de resultados. Embora esta seja uma tarefa difícil, ainda assim é possível buscar uma relação entre atributos extraídos da configuração do ambiente de execução e do conjunto de dados de entrada e o tempo total de execução de certas aplicações. Tal relação pode ser utilizada na predição do tempo de execução a partir apenas destes atributos. Este trabalho parte desta premissa e explora modelos de aprendizado de máquina para a previsão de tempos de execução de aplicações na plataforma Spark, popular na área de processamento de dados em larga escala. O trabalho investiga quatro modelos e diferentes atributos, além de comparar os resultados com o estado-da-arte atual. Todos os modelos são avaliados em diversos cenários e configurações, produzindo resultados significativamente melhores que o estado-da-arte em alguns casos.
Abstract: The rise of big data applications brought along a series of difficult challenges regarding the allocation of hardware and software resources. Typically these applications are known for being computationally expensive and having high heterogeneity on how they operate, making the task of estimating application’s execution time very challenging. It may be still possible to correlate features extracted from the cloud environment and from the input dataset to the execution time. Such relationship may then be used to predict execution times. Based on such assumption, this work explores machine learning (ML) models to the task of predict execution time of Spark applications. This work investigates four ML models as well as different features, while also comparing their results against the current state-of-the-art. All models are evaluated in several scenarios and configurations, producing results that are significantly superior to the state-of-the-art in various cases.
Subject: Sistemas distribuídos
Big data
Aprendizado de máquina
language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Rights: Acesso Aberto
metadata.dc.identifier.doi: https://doi.org/10.5753/sbrc.2019.7360
URI: http://hdl.handle.net/1843/74092
Issue Date: 2019
metadata.dc.url.externa: https://sol.sbc.org.br/index.php/sbrc/article/view/7360
metadata.dc.relation.ispartof: Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC)
Appears in Collections:Artigo de Evento

Files in This Item:
File Description SizeFormat 
Aprendizado de máquina para previsão do tempo de execução de aplicações Spark.pdf223.24 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.