Upgrading a high performance computing environment for massive data processing

Lucas Miguel Simões Ponce; Walter Dos Santos; Wagner Meira Jr.; Dorgival Guedes; Daniele Lezzi; Rosa M. Badia

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/61947

Full metadata record

DC Field	Value	Language
dc.creator	Lucas Miguel Simões Ponce	pt_BR
dc.creator	Walter Dos Santos	pt_BR
dc.creator	Wagner Meira Jr.	pt_BR
dc.creator	Dorgival Guedes	pt_BR
dc.creator	Daniele Lezzi	pt_BR
dc.creator	Rosa M. Badia	pt_BR
dc.date.accessioned	2023-12-12T20:27:30Z	-
dc.date.available	2023-12-12T20:27:30Z	-
dc.date.issued	2019	-
dc.citation.volume	10	pt_BR
dc.citation.issue	19	pt_BR
dc.identifier.doi	http://dx.doi.org/10.1186/s13174-019-0118-7	pt_BR
dc.identifier.issn	1869-0238	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/61947	-
dc.description.abstract	A computação de alto desempenho (HPC) e o processamento massivo de dados (Big Data) são duas tendências que estão começando a convergir. Nesse processo, aspectos de arquiteturas de hardware, suporte de sistemas e paradigmas de programação estão sendo revisitados de ambas as perspectivas. Este artigo apresenta a nossa experiência neste caminho de convergência com a proposta de um quadro que aborda algumas das questões de programação derivadas dessa integração. Nossa contribuição é o desenvolvimento de um ambiente integrado que integre (i) COMPSs, um framework de programação para o desenvolvimento e execução de aplicações paralelas para infraestruturas distribuídas; (ii) Lemonade, ferramenta de mineração e análise de dados; e (iii) HDFS, o sistema de arquivos distribuídos mais utilizado para sistemas de Big Data. Para validar nossa estrutura, usamos Lemonade para criar aplicativos COMPSs que acessam dados por meio de HDFS e os comparamos com aplicativos equivalentes construídos com Spark, uma estrutura popular de Big Data. Os resultados mostram que a integração do HDFS beneficia os COMPSs ao simplificar o acesso aos dados e ao reorganizar a transferência de dados, reduzindo o tempo de execução. A integração com o Lemonade facilita o uso de COMPSs e pode ajudar na sua popularização na comunidade de Data Science, ao fornecer implementações eficientes de algoritmos para especialistas do domínio de dados que desejam desenvolver aplicações com maior nível de abstração.	pt_BR
dc.description.resumo	High-performance computing (HPC) and massive data processing (Big Data) are two trends that are beginning to converge. In that process, aspects of hardware architectures, systems support and programming paradigms are being revisited from both perspectives. This paper presents our experience on this path of convergence with the proposal of a framework that addresses some of the programming issues derived from such integration. Our contribution is the development of an integrated environment that integretes (i) COMPSs, a programming framework for the development and execution of parallel applications for distributed infrastructures; (ii) Lemonade, a data mining and analysis tool; and (iii) HDFS, the most widely used distributed file system for Big Data systems. To validate our framework, we used Lemonade to create COMPSs applications that access data through HDFS, and compared them with equivalent applications built with Spark, a popular Big Data framework. The results show that the HDFS integration benefits COMPSs by simplifying data access and by rearranging data transfer, reducing execution time. The integration with Lemonade facilitates COMPSs’s use and may help its popularization in the Data Science community, by providing efficient algorithm implementations for experts from the data domain that want to develop applications with a higher level abstraction.	pt_BR
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico	pt_BR
dc.description.sponsorship	FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais	pt_BR
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	pt_BR
dc.format.mimetype	pdf	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.relation.ispartof	Journal of Internet Services and Applications	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	COMPSs	pt_BR
dc.subject	High-performance computing	pt_BR
dc.subject	Big data	pt_BR
dc.subject	HDFS	pt_BR
dc.subject	Lemonade	pt_BR
dc.subject.other	Programação	pt_BR
dc.subject.other	Computação de alto desempenho	pt_BR
dc.subject.other	Big data	pt_BR
dc.subject.other	Processamento de dados	pt_BR
dc.title	Upgrading a high performance computing environment for massive data processing	pt_BR
dc.title.alternative	Atualizando um ambiente de computação de alto desempenho para processamento massivo de dados	pt_BR
dc.type	Artigo de Periódico	pt_BR
dc.url.externa	https://jisajournal.springeropen.com/articles/10.1186/s13174-019-0118-7	pt_BR
dc.identifier.orcid	http://orcid.org/0000-0002-1480-0039	pt_BR
dc.identifier.orcid	https://orcid.org/0000-0003-0865-1417	pt_BR
Appears in Collections:	Artigo de Periódico

Files in This Item:

File	Description	Size	Format
Upgrading a high performance computing environment for massive data processing.pdf		20.36 MB	Adobe PDF	View/Open

Show simple item record