Aprendizado de máquina para previsão do tempo de execução de aplicações Spark

dc.creatorFabrício Murai Ferreira
dc.creatorAna Paula Couto da Silva
dc.creatorAlexandre Maros
dc.creatorJussara M. Almeida
dc.date.accessioned2024-08-14T20:33:42Z
dc.date.accessioned2025-09-09T01:06:13Z
dc.date.available2024-08-14T20:33:42Z
dc.date.issued2019
dc.description.abstractThe rise of big data applications brought along a series of difficult challenges regarding the allocation of hardware and software resources. Typically these applications are known for being computationally expensive and having high heterogeneity on how they operate, making the task of estimating application’s execution time very challenging. It may be still possible to correlate features extracted from the cloud environment and from the input dataset to the execution time. Such relationship may then be used to predict execution times. Based on such assumption, this work explores machine learning (ML) models to the task of predict execution time of Spark applications. This work investigates four ML models as well as different features, while also comparing their results against the current state-of-the-art. All models are evaluated in several scenarios and configurations, producing results that are significantly superior to the state-of-the-art in various cases.
dc.format.mimetypepdf
dc.identifier.doihttps://doi.org/10.5753/sbrc.2019.7360
dc.identifier.issn2177-9384
dc.identifier.urihttps://hdl.handle.net/1843/74092
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.relation.ispartofSimpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC)
dc.rightsAcesso Aberto
dc.subjectSistemas distribuídos
dc.subjectBig data
dc.subjectAprendizado de máquina
dc.subject.otherSistemas distribuídos
dc.subject.otherBig data
dc.subject.otherSpark
dc.subject.otherAprendizado de máquina
dc.titleAprendizado de máquina para previsão do tempo de execução de aplicações Spark
dc.typeArtigo de evento
local.citation.issue37
local.description.resumoAplicações de big data têm associada uma série de problemas desafiadores envolvendo a alocação de recursos de hardware e software. Tipicamente, essas aplicações são conhecidas por serem computacionalmente custosas e por possuírem uma grande heterogeneidade e irregularidades na forma em que operam, tornando desafiadora a tarefa de estimar os tempos de conclusão de resultados. Embora esta seja uma tarefa difícil, ainda assim é possível buscar uma relação entre atributos extraídos da configuração do ambiente de execução e do conjunto de dados de entrada e o tempo total de execução de certas aplicações. Tal relação pode ser utilizada na predição do tempo de execução a partir apenas destes atributos. Este trabalho parte desta premissa e explora modelos de aprendizado de máquina para a previsão de tempos de execução de aplicações na plataforma Spark, popular na área de processamento de dados em larga escala. O trabalho investiga quatro modelos e diferentes atributos, além de comparar os resultados com o estado-da-arte atual. Todos os modelos são avaliados em diversos cenários e configurações, produzindo resultados significativamente melhores que o estado-da-arte em alguns casos.
local.identifier.orcidhttps://orcid.org/0000-0003-4487-6381
local.identifier.orcidhttps://orcid.org/0000-0001-5951-3562
local.identifier.orcidhttps://orcid.org/0000-0001-9142-2919
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.url.externahttps://sol.sbc.org.br/index.php/sbrc/article/view/7360

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Aprendizado de máquina para previsão do tempo de execução de aplicações Spark.pdf
Tamanho:
223.24 KB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
License.txt
Tamanho:
1.99 KB
Formato:
Plain Text
Descrição: