Please use this identifier to cite or link to this item:
http://hdl.handle.net/1843/74092
Type: | Artigo de Evento |
Title: | Aprendizado de máquina para previsão do tempo de execução de aplicações Spark |
Authors: | Fabrício Murai Ferreira Ana Paula Couto da Silva Alexandre Maros Jussara M. Almeida |
Abstract: | Aplicações de big data têm associada uma série de problemas desafiadores envolvendo a alocação de recursos de hardware e software. Tipicamente, essas aplicações são conhecidas por serem computacionalmente custosas e por possuírem uma grande heterogeneidade e irregularidades na forma em que operam, tornando desafiadora a tarefa de estimar os tempos de conclusão de resultados. Embora esta seja uma tarefa difícil, ainda assim é possível buscar uma relação entre atributos extraídos da configuração do ambiente de execução e do conjunto de dados de entrada e o tempo total de execução de certas aplicações. Tal relação pode ser utilizada na predição do tempo de execução a partir apenas destes atributos. Este trabalho parte desta premissa e explora modelos de aprendizado de máquina para a previsão de tempos de execução de aplicações na plataforma Spark, popular na área de processamento de dados em larga escala. O trabalho investiga quatro modelos e diferentes atributos, além de comparar os resultados com o estado-da-arte atual. Todos os modelos são avaliados em diversos cenários e configurações, produzindo resultados significativamente melhores que o estado-da-arte em alguns casos. |
Abstract: | The rise of big data applications brought along a series of difficult challenges regarding the allocation of hardware and software resources. Typically these applications are known for being computationally expensive and having high heterogeneity on how they operate, making the task of estimating application’s execution time very challenging. It may be still possible to correlate features extracted from the cloud environment and from the input dataset to the execution time. Such relationship may then be used to predict execution times. Based on such assumption, this work explores machine learning (ML) models to the task of predict execution time of Spark applications. This work investigates four ML models as well as different features, while also comparing their results against the current state-of-the-art. All models are evaluated in several scenarios and configurations, producing results that are significantly superior to the state-of-the-art in various cases. |
Subject: | Sistemas distribuídos Big data Aprendizado de máquina |
language: | por |
metadata.dc.publisher.country: | Brasil |
Publisher: | Universidade Federal de Minas Gerais |
Publisher Initials: | UFMG |
metadata.dc.publisher.department: | ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO |
Rights: | Acesso Aberto |
metadata.dc.identifier.doi: | https://doi.org/10.5753/sbrc.2019.7360 |
URI: | http://hdl.handle.net/1843/74092 |
Issue Date: | 2019 |
metadata.dc.url.externa: | https://sol.sbc.org.br/index.php/sbrc/article/view/7360 |
metadata.dc.relation.ispartof: | Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC) |
Appears in Collections: | Artigo de Evento |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Aprendizado de máquina para previsão do tempo de execução de aplicações Spark.pdf | 223.24 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.