Particionamento semi-automático de reduções cíclicas para execução em anthill

Juliano de Castro Santos

Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/RVMR-78VMDR

Tipo:	Dissertação de Mestrado
Título:	Particionamento semi-automático de reduções cíclicas para execução em anthill
Autor(es):	Juliano de Castro Santos
primer Tutor:	Renato Antonio Celso Ferreira
primer miembro del tribunal :	Dorgival Olavo Guedes Neto
Segundo miembro del tribunal:	Wagner Meira Junior
Tercer miembro del tribunal:	Walfredo da Costa Cirne Filho
Resumen:	Extrair informação de grandes bases de dados é um desafio das novas demandas da Ciência da Computação. Além disso, diversas técnicas de Mineração de Dados são propostas continuamente na literatura. Tais algoritmos são computacionalmente intensivos, além do fato de processarem entradas de dados muito grandes. Assim, há uma nova tendência em direção ao alto desempenho de processamento e montagem de clusters de computadores, a um custo mais razoável que os supercomputadores do passado. Essa tendência nos leva a um cenário em que o alto desempenho é alcançado por eficientes implementações de aplicações paralelas e distribuídas. O Anthill é uma solução para processamento distribuído em clusters de computadores onde um alto desempenho é obtido em execuções eficientes e escaláveis de diversos algoritmos de Mineração de Dados. Ele fornece um framework para o desenvolvimento e a execução de aplicações em ambiente distribuído, onde as aplicações devem ser decompostas em filtros que se comunicam através de streams de dados, como em um pipeline. O processo de desenvolvimento das aplicações entretanto demanda do programador decompor as aplicações, que não é o caminho natural de desenvolvimento dos programas. Este trabalho apresenta uma ferramenta de geração semi-automática de filtros a partir de uma implementação seqüencial do algoritmo. Esse processo é divido em duas etapas: a primeira é o particionamento em filtros do código seqüencial, seguido pela geração do código para cada um dos filtros identificados. Este trabalho tem como foco a segunda etapa, a geração do código. Para a primeira etapa, nós realizamos de forma semi-automática alguns passos a serem automatizados em trabalhos futuros. Esse processo determina as dependências de dados no código, e identifica os pontos de corte do mesmo. A partir deste passo, é gerado uma versão anotada do código seqüencial, contendo as informações para sua divisão em filtros. A geração dos filtros é feita a partir do código anotado. Basicamente, as anotações contêm um grafo direcionado onde os vértices representam os filtros e as arestas representam os dados que são trafegados entre os filtros. Nós implementamos um gerador de código fonte onde a entrada é um algoritmos seqüencial escrito em C e a saída são os filtros, também em C, com as extensões do Anthill. A maioria das adaptações necessárias para Anthill são geradas automaticamente por essa ferramenta. O gerador de código automático foi validado usando três aplicações de Mineração de Dados que já haviam sido implementadas no Anthill. Foram gerados de forma automática o código dos filtros Anthill a partir das versões seqüenciais. Nós avaliamos o desempenho do código gerado e observamos que o resultado é similar ao código gerado manualmente na maioria dos casos. Este é um bom resultado, dado que o custo de implementação do código seqüencial é bem menor do que a implementação paralela dos filtros para o Anthill. Também foram observadas algumas otimizações presentes na implementação manual que podem ser realizadas automaticamente pela ferramenta para obtenção de um resultado mais otimizado. Como trabalhos futuros devemos prosseguir com a automatização de mais otimizações na geração do código.
Abstract:	Extracting information from large datasets is one of the challenging new demands in Computer Science. To accomplish that, several Data Mining techniques are being proposed continually in the literature. Such algorithms are computationally intensive, in addition to the fact of having to process very large input data. Besides, the new trend towards high performance computing is gearing towards clusters of computers, a cost effective alternative to the supercomputers of the past. This trend leads to a scenario in which achieving high performance must be accomplished by efficient parallel and distributed implementations of the applications. Anthill is a solution for distributed processing on clusters of workstations for which high performance have been achieved by efficient and scalable implementation of several Data Mining algorithms. In essence, it provides a framework for the development and execution of applications in distributed environments, where the applications must be decomposed into a set of filters that exchange information though streams in a pipeline fashion. The process of developing the applications, however, damands the programmers to perform such application decomposition which may not be the natural way in which they program. This work presents a tool of semiautomatic generation of such fiters from a basic sequential implementation of the algorithms. This process is divided in two stages: the first being the partition into filters of the sequential code, followed by the code generation for each of the identified filters. This work focuses mostly on the latter, the code generation itself. For the first stage, we rely on some semi-automatic steps that could be implemented to be fully automatic in future work. These steps are based on determining data dependencies within the code, and finding good partition places. Using such steps we generate an annotated version of the sequential code, that contains the partitioning information. The actual code generation is accomplished from the annotated code. Basically the annotations encompass a directed graph with vertices representing the filters and edges annotated with the data that should be communicated. We implemented a source-to-source compiler, where the initial sequential code is standard C, and the output is also C, with Anthill extensions. Most of the necessary adaptations for Anthill are generated automatically by our compiler. The compiler was validated using three different Data Mining applications that had previously been developed for Anthill. This time, we generated the Anthill code from sequential versions of the same algorithms. We evaluate the performance of the generated code and we observe that it is very similar to the hand-made implementations in most cases. This is a good result when noted that the effort to design the sequential code is much less than a fully parallel Anthill implementation. We also notice that there are some ad-hoc optimizations on the hand-made codes that could also be accomplished by a compiler in a further optimizing step. We plan to pursue such automatic optimizations as future work
Asunto:	Processamento paralelo (Computadores) Computação Banco de dados distribuído Mineração de dados (Computação) Processamento eletrônico de dados Processamento distribuído Computação de alto desempenho
Idioma:	Português
Editor:	Universidade Federal de Minas Gerais
Sigla da Institución:	UFMG
Tipo de acceso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/RVMR-78VMDR
Fecha del documento:	3-ago-2006
Aparece en las colecciones:	Dissertações de Mestrado

archivos asociados a este elemento:

archivo	Descripción	Tamaño	Formato
julianocastrosantos.pdf		739.29 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo del elemento Visualizar estadísticas