Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/61947
Type: Artigo de Periódico
Title: Upgrading a high performance computing environment for massive data processing
Other Titles: Atualizando um ambiente de computação de alto desempenho para processamento massivo de dados
Authors: Lucas Miguel Simões Ponce
Walter Dos Santos
Wagner Meira Jr.
Dorgival Guedes
Daniele Lezzi
Rosa M. Badia
Abstract: High-performance computing (HPC) and massive data processing (Big Data) are two trends that are beginning to converge. In that process, aspects of hardware architectures, systems support and programming paradigms are being revisited from both perspectives. This paper presents our experience on this path of convergence with the proposal of a framework that addresses some of the programming issues derived from such integration. Our contribution is the development of an integrated environment that integretes (i) COMPSs, a programming framework for the development and execution of parallel applications for distributed infrastructures; (ii) Lemonade, a data mining and analysis tool; and (iii) HDFS, the most widely used distributed file system for Big Data systems. To validate our framework, we used Lemonade to create COMPSs applications that access data through HDFS, and compared them with equivalent applications built with Spark, a popular Big Data framework. The results show that the HDFS integration benefits COMPSs by simplifying data access and by rearranging data transfer, reducing execution time. The integration with Lemonade facilitates COMPSs’s use and may help its popularization in the Data Science community, by providing efficient algorithm implementations for experts from the data domain that want to develop applications with a higher level abstraction.
Abstract: A computação de alto desempenho (HPC) e o processamento massivo de dados (Big Data) são duas tendências que estão começando a convergir. Nesse processo, aspectos de arquiteturas de hardware, suporte de sistemas e paradigmas de programação estão sendo revisitados de ambas as perspectivas. Este artigo apresenta a nossa experiência neste caminho de convergência com a proposta de um quadro que aborda algumas das questões de programação derivadas dessa integração. Nossa contribuição é o desenvolvimento de um ambiente integrado que integre (i) COMPSs, um framework de programação para o desenvolvimento e execução de aplicações paralelas para infraestruturas distribuídas; (ii) Lemonade, ferramenta de mineração e análise de dados; e (iii) HDFS, o sistema de arquivos distribuídos mais utilizado para sistemas de Big Data. Para validar nossa estrutura, usamos Lemonade para criar aplicativos COMPSs que acessam dados por meio de HDFS e os comparamos com aplicativos equivalentes construídos com Spark, uma estrutura popular de Big Data. Os resultados mostram que a integração do HDFS beneficia os COMPSs ao simplificar o acesso aos dados e ao reorganizar a transferência de dados, reduzindo o tempo de execução. A integração com o Lemonade facilita o uso de COMPSs e pode ajudar na sua popularização na comunidade de Data Science, ao fornecer implementações eficientes de algoritmos para especialistas do domínio de dados que desejam desenvolver aplicações com maior nível de abstração.
Subject: Programação
Computação de alto desempenho
Big data
Processamento de dados
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Rights: Acesso Aberto
metadata.dc.identifier.doi: http://dx.doi.org/10.1186/s13174-019-0118-7
URI: http://hdl.handle.net/1843/61947
Issue Date: 2019
metadata.dc.url.externa: https://jisajournal.springeropen.com/articles/10.1186/s13174-019-0118-7
metadata.dc.relation.ispartof: Journal of Internet Services and Applications
Appears in Collections:Artigo de Periódico

Files in This Item:
File Description SizeFormat 
Upgrading a high performance computing environment for massive data processing.pdf20.36 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.