Previsão do tempo de resposta de aplicações paralelas de processamento de dados massivos em ambientes de nuvem

Tulio Braga Moreira Pinto

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/44157

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Jussara Marques de Almeida	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3286329883412205	pt_BR
dc.contributor.advisor-co1	Ana Paula Couto da Silva	pt_BR
dc.contributor.referee1	Fabrício Murai Ferreira	pt_BR
dc.contributor.referee2	Dorgival Olavo Guedes Neto	pt_BR
dc.creator	Tulio Braga Moreira Pinto	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/9963538235164080	pt_BR
dc.date.accessioned	2022-08-10T19:28:11Z	-
dc.date.available	2022-08-10T19:28:11Z	-
dc.date.issued	2019-07-15	-
dc.identifier.uri	http://hdl.handle.net/1843/44157	-
dc.description.abstract	The popularity of online and data-intensive applications presented new challenges to computing. Although cloud computing technology has enabled on-demand resource scheduling, the data access heterogeneity and irregularity of data-intensive applications have increased the difficulty of both hardware and software resource scheduling. Nonetheless, the performance prediction (e.g.: response time) of such applications increase in complexity as all these characteristics are combined. Thus, this research explores two analytical models for the response time prediction of parallel applications running on Apache Spark, one of the most popular frameworks for massive data-processing. The first model is based on a fork/join queues, in which an application is split into N tasks and processed in parallel in multiple servers. This model captures the synchronization delays perceived in the slowest server. The second model is based on queuing networks. It considers the precedence relationship between the application tasks to compute the synchronization delays. Multiple experimental scenarios were considered, including the parallel wordcount algorithm, machine learning common algorithms, such as SVM, Logistic Regression, and K-Means, and ad-hoc data analytics queries. The precedence relationship model presented a mean error less than 20% for most of the experimental scenarios, which is typically considered reasonable for analytical models. Yet, both models presented execution times in the range of milliseconds. Such a low execution time enables the usage of the models for the dynamic provisioning of parallel systems, an important task to guarantee the quality of service of massive data-processing applications. Both the analytical models were compared to the DagSim simulation model, the state-of-art model for performance prediction of Hadoop and Spark applications.	pt_BR
dc.description.resumo	A popularização das aplicações online e intensas em dados nos últimos anos trouxe consigo novos desafios à computação. Apesar de a flexibilidade e a elasticidade da computação em nuvem terem facilitado a alocação de recursos de hardware e software sob demanda, a heterogeneidade e a irregularidade nos padrões de acesso das aplicações massivas em dados, por outro lado, tornaram esta tarefa mais desafiadora. Em consequência, a combinação destas características tornam a previsão de desempenho (p. ex: previsão do tempo de resposta das aplicações) mais complexa. Sendo assim, este trabalho explora dois modelos analíticos para a previsão do tempo de resposta de aplicações paralelas na plataforma Spark, muito popular para processamento de grandes volumes de dados. O primeiro modelo é baseado em um fork/join, no qual uma aplicação é dividida em N tarefas que são processadas em paralelo em múltiplos servidores. Este modelo captura o tempo do servidor mais lento para computar os atrasos de sincronização. O segundo modelo é baseado em teoria de filas e considera a precedência entre as tarefas para estimar os atrasos de sincronização. Múltiplos cenários experimentais são considerados, incluindo atividades recorrentes como o wordcount, algoritmos frequentemente utilizados em aprendizado de máquina, como o SVM, o Logistic Regression e o K-Means, e consultas ad-hoc comuns em análise de dados. Para o modelo baseado em precedência de tarefas, os resultados das previsões apresentaram erro médio inferior a 20% para a maioria dos cenários, considerado tipicamente baixo para modelos analíticos. Ainda, com um tempo de execução na casa dos milissegundos, este modelo se mostrou eficaz para a reconfiguração dinâmica de sistemas paralelos, tarefa importante na garantia de qualidade de serviço das aplicações massivas em dados. Ambos os modelos fork/join e de precedência de tarefas são comparados com o modelo de simulação DagSim, considerado estado da arte para previsão de desempenho de aplicações Hadoop e Spark.	pt_BR
dc.description.sponsorship	Outra Agência	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/	*
dc.subject	Previsão de desempenho	pt_BR
dc.subject	Computação em nuvem	pt_BR
dc.subject	Spark	pt_BR
dc.subject	Processamento massivo de dados	pt_BR
dc.subject	Aplicações paralelas	pt_BR
dc.subject	Sistemas distribuídos	pt_BR
dc.subject.other	Computação – Teses	pt_BR
dc.subject.other	Computação em nuvem – Teses	pt_BR
dc.subject.other	Sistemas distribuídos – Teses	pt_BR
dc.subject.other	Processamento massivo de dados – Teses	pt_BR
dc.title	Previsão do tempo de resposta de aplicações paralelas de processamento de dados massivos em ambientes de nuvem	pt_BR
dc.title.alternative	Response time prediction of parallel applications for big data processing in cloud environments	pt_BR
dc.type	Dissertação	pt_BR
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
Dissertacao-Tulio-Aprovada-Catalografica-Final-2022.pdf	Dissertação de mestrado "Previsão do tempo de resposta de aplicações paralelas de processamento de dados massivos em ambientes de nuvem"	1.36 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License