Watershed-ng: um sistema distribuído e extensível para o processamento de fluxos de dados

Rodrigo Caetano de Oliveira Rocha

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ESBF-A2EQRM

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Dorgival Olavo Guedes Neto	pt_BR
dc.contributor.referee1	Renato Antonio Celso Ferreira	pt_BR
dc.contributor.referee2	Wagner Meira Junior	pt_BR
dc.creator	Rodrigo Caetano de Oliveira Rocha	pt_BR
dc.date.accessioned	2019-08-13T19:54:55Z	-
dc.date.available	2019-08-13T19:54:55Z	-
dc.date.issued	2015-07-17	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/ESBF-A2EQRM	-
dc.description.abstract	Most high-performance data processing (a.k.a. big-data) systems allowusers to express their computation using abstractions (like MapReduce)that simplify the extraction of parallelism from applications. Mostframeworks, however, do not allow users to specify how communicationmust take place: that element is deeply embedded into the run-timesystem (RTS) abstractions, making changes hard to implement.In this work we describe Wathershed-ng, our re-engineering of the Watershed system, a framework based on the filter-stream paradigm and originally focused on continuous stream processing. Like other big-data environments, Watershed provided object-oriented abstractions to express computation (filters), but the implementation of streams was an RTS element. By isolating stream functionality into appropriate classes, combination of communication patterns and reuse of common message handling functions (like compression and blocking) become possible. The new architecture even allows the design of new communication patterns, for example, allowing users to choose MPI, TCP or shared memory implementations of communication channels as their problem demands. Applications designed for the new interface showed reductions in code size on the order of 50% and above in some cases. The performance results also showed significant improvements, since some implementation bottlenecks were removed in the re-engineering process.	pt_BR
dc.description.resumo	Plataformas de processamento de dados massivos permitem que usuários expressem as computações utilizando abstrações que simplificam à extração de paralelismo. A maioria das plataformas, no entanto, não permitem que os usuários especifiquem como a comunicação entre os nós de computação deve acontecer. Neste trabalho descrevemos a plataforma Watershed-ng, uma re-engenharia do Watershed, uma plataforma baseada no modelo filtro-fluxo e originalmente focada no processamento de fluxos contínuos de dados. Isolando a funcionalidade dos canais de fluxos de dados em classes de primeira ordem, se tornou possível desenvolver, combinar e reutilizar diversos padrões de comunicação e componentes para o tratamento do fluxo de dados. Aplicações desenvolvidas com o Watershed-ng, integrado ao ambiente Hadoop, apresentaram melhorias significativas de desempenho, bem como uma redução em tamanho de código de até 50%, quando comparado com as plataformas predecessoras.	pt_BR
dc.language	Português	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Processamento de fluxos de dados	pt_BR
dc.subject	Big data	pt_BR
dc.subject	Sistemas distribuídos	pt_BR
dc.subject	Programação paralela	pt_BR
dc.subject.other	Computação	pt_BR
dc.subject.other	Big data	pt_BR
dc.subject.other	Programação paralela (Computação)	pt_BR
dc.subject.other	Sistemas distribuídos	pt_BR
dc.title	Watershed-ng: um sistema distribuído e extensível para o processamento de fluxos de dados	pt_BR
dc.type	Dissertação de Mestrado	pt_BR
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
rodrigocaetano.pdf		1.56 MB	Adobe PDF	View/Open

Show simple item record