Escalonamento multiplataforma de fluxos de processamento em ciência de dados
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Tese de doutorado
Título alternativo
Cross-platform scaling of processing flows in data science
Primeiro orientador
Membros da banca
Ítalo Fernando Scotá Cunha
Wagner Meira Júnior
Jussara Marques de Almeida Gonçalves
Philippe Olivier Alexandre Navaux
Lúcia Maria de Assumpção Drummond
Wagner Meira Júnior
Jussara Marques de Almeida Gonçalves
Philippe Olivier Alexandre Navaux
Lúcia Maria de Assumpção Drummond
Resumo
Sistemas de processamento de dados multiplataforma são ferramentas que permitem a execução eficiente de fluxos de trabalho complexos entre ferramentas de processamento heterogêneas. No entanto, as soluções existentes enfrentam limitações críticas em implantações reais: (i) as interfaces atuais dependem de abstrações de operadores simplificadas, como map/filter/reduce, que agregam diversas operações de alto nível como equivalentes, ignorando distinções computacionais cruciais e características dos dados; (ii) além disso, a falta de estatísticas prévias sobre os dados de entrada, combinada com a evolução dinâmica das propriedades dos dados ao longo da execução do fluxo de trabalho, leva a decisões subótimas, uma vez que os escalonadores existentes não consideram as mudanças no volume de dados e no esquema ao longo dos estágios do pipeline. Nesse contexto, propomos um arcabouço abrangente para escalonamento e execução multiplataforma de tarefas de Ciência de Dados utilizando DataFrame, uma abstração de dados moderna. Nossa proposta aborda essas limitações por meio de uma modelagem estendida baseada em grafos dos fluxos de trabalho. Essa estrutura de grafo captura: (i) a evolução dos volumes de dados e das características de esquema ao longo dos estágios do pipeline, (ii) os custos de execução heterogêneos entre as ferramentas disponíveis, e (iii) os custos de migração de dados entre ferramentas distintas. A metodologia proposta integra três contribuições técnicas principais: (i) um sistema de transformação baseado em regras para otimização de fluxos de trabalho que opera sobre a representação estendida do grafo; (ii) modelos de aprendizado de máquina para estimativa precisa dos tempos de execução; e (iii) um mecanismo de recalibração dinâmica que utiliza dados históricos de execução para se adaptar a cargas de trabalho em evolução. Implementamos o nosso modelo como uma extensão de um ambiente de programação visual existente para Ciência de Dados, demonstrando viabilidade prática em três configurações distintas de hardware e múltiplas ferramentas de processamento. A validação experimental demonstra que nossa abordagem possui 93% de acerto na seleção da ferramenta de processamento mais adequada e 75% de acerto na identificação de configurações ideais de hardware. Além disso, o sistema permite melhorias de desempenho de até 3,3 vezes em comparação com a execução tradicional utilizando uma única ferramenta, ao escalonar tarefas entre múltiplas ferramentas. A solução também exibe estabilidade em diversos ambientes de execução e a capacidade de evoluir por meio de aprendizado contínuo a partir de execuções históricas.
Abstract
Cross-platform data processing systems are tools that can lead to efficient execution of complex workflows across heterogeneous processing tools. However, existing solutions face critical limitations in real-world deployments: (i) current interfaces rely on simplified operator abstractions such as map/filter/reduce that aggregate diverse high-level operations as equivalent, ignoring crucial computational distinctions and data characteristics; (ii) furthermore, the lack of prior statistics regarding input data, combined with the dynamic evolution of data properties throughout workflow execution, leads to suboptimal scheduling decisions, as existing schedulers fail to account for data volume and schema changes across pipeline stages. In this context, we propose a comprehensive framework for cross-platform scheduling and execution of Data Science tasks utilizing DataFrame, a modern data abstraction. Our approach addresses these limitations through an extended graph-based modeling of workflows. This enhanced graph structure explicitly captures: (i) the evolution of data volumes and schema characteristics across pipeline stages, (ii) heterogeneous execution costs across available tools, and (iii) data migration overheads between distinct tools. The proposed methodology integrates three key technical contributions: (i) a rule-based transformation system for workflow optimization that operates on the extended graph representation; (ii) machine learning models for accurate estimation of execution times; and (iii) a dynamic recalibration mechanism that leverages historical execution data to adapt to evolving workloads. We implemented our model as an extension of an existing visual programming environment for Data Science, demonstrating practical viability across three distinct hardware configurations and multiple processing backends. Experimental validation demonstrates that our approach achieves 93% accuracy in selecting the most suitable processing tool and 75% accuracy in identifying optimal hardware configurations. Furthermore, the system enables performance improvements of up to 3.3 times compared to traditional single-tool execution by scheduling tasks across multiple tools. The solution also exhibits robust stability across diverse execution environments and maintains the capability to evolve through continuous learning from historical executions.
Assunto
Computação – Teses, Computação de alto desempenho – Teses, Sistemas multiplataforma -Teses, Ciência de dados – Teses
Palavras-chave
Sistemas multiplataforma, Previsor de desempenho, Avaliação experimental