Escalonamento multiplataforma de fluxos de processamento em ciência de dados

dc.creatorLucas Miguel Simões Ponce
dc.date.accessioned2026-03-30T14:28:52Z
dc.date.issued2026-02-26
dc.description.abstractCross-platform data processing systems are tools that can lead to efficient execution of complex workflows across heterogeneous processing tools. However, existing solutions face critical limitations in real-world deployments: (i) current interfaces rely on simplified operator abstractions such as map/filter/reduce that aggregate diverse high-level operations as equivalent, ignoring crucial computational distinctions and data characteristics; (ii) furthermore, the lack of prior statistics regarding input data, combined with the dynamic evolution of data properties throughout workflow execution, leads to suboptimal scheduling decisions, as existing schedulers fail to account for data volume and schema changes across pipeline stages. In this context, we propose a comprehensive framework for cross-platform scheduling and execution of Data Science tasks utilizing DataFrame, a modern data abstraction. Our approach addresses these limitations through an extended graph-based modeling of workflows. This enhanced graph structure explicitly captures: (i) the evolution of data volumes and schema characteristics across pipeline stages, (ii) heterogeneous execution costs across available tools, and (iii) data migration overheads between distinct tools. The proposed methodology integrates three key technical contributions: (i) a rule-based transformation system for workflow optimization that operates on the extended graph representation; (ii) machine learning models for accurate estimation of execution times; and (iii) a dynamic recalibration mechanism that leverages historical execution data to adapt to evolving workloads. We implemented our model as an extension of an existing visual programming environment for Data Science, demonstrating practical viability across three distinct hardware configurations and multiple processing backends. Experimental validation demonstrates that our approach achieves 93% accuracy in selecting the most suitable processing tool and 75% accuracy in identifying optimal hardware configurations. Furthermore, the system enables performance improvements of up to 3.3 times compared to traditional single-tool execution by scheduling tasks across multiple tools. The solution also exhibits robust stability across diverse execution environments and maintains the capability to evolve through continuous learning from historical executions.
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.identifier.urihttps://hdl.handle.net/1843/2284
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso aberto
dc.subjectComputação – Teses
dc.subjectComputação de alto desempenho – Teses
dc.subjectSistemas multiplataforma -Teses
dc.subjectCiência de dados – Teses
dc.subject.otherSistemas multiplataforma
dc.subject.otherPrevisor de desempenho
dc.subject.otherAvaliação experimental
dc.titleEscalonamento multiplataforma de fluxos de processamento em ciência de dados
dc.title.alternativeCross-platform scaling of processing flows in data science
dc.typeTese de doutorado
local.contributor.advisor1Dorgival Olavo Guedes Neto
local.contributor.advisor1Latteshttp://lattes.cnpq.br/3551809247862378
local.contributor.referee1Ítalo Fernando Scotá Cunha
local.contributor.referee1Wagner Meira Júnior
local.contributor.referee1Jussara Marques de Almeida Gonçalves
local.contributor.referee1Philippe Olivier Alexandre Navaux
local.contributor.referee1Lúcia Maria de Assumpção Drummond
local.creator.Latteshttp://lattes.cnpq.br/2598669552852303
local.description.resumoSistemas de processamento de dados multiplataforma são ferramentas que permitem a execução eficiente de fluxos de trabalho complexos entre ferramentas de processamento heterogêneas. No entanto, as soluções existentes enfrentam limitações críticas em implantações reais: (i) as interfaces atuais dependem de abstrações de operadores simplificadas, como map/filter/reduce, que agregam diversas operações de alto nível como equivalentes, ignorando distinções computacionais cruciais e características dos dados; (ii) além disso, a falta de estatísticas prévias sobre os dados de entrada, combinada com a evolução dinâmica das propriedades dos dados ao longo da execução do fluxo de trabalho, leva a decisões subótimas, uma vez que os escalonadores existentes não consideram as mudanças no volume de dados e no esquema ao longo dos estágios do pipeline. Nesse contexto, propomos um arcabouço abrangente para escalonamento e execução multiplataforma de tarefas de Ciência de Dados utilizando DataFrame, uma abstração de dados moderna. Nossa proposta aborda essas limitações por meio de uma modelagem estendida baseada em grafos dos fluxos de trabalho. Essa estrutura de grafo captura: (i) a evolução dos volumes de dados e das características de esquema ao longo dos estágios do pipeline, (ii) os custos de execução heterogêneos entre as ferramentas disponíveis, e (iii) os custos de migração de dados entre ferramentas distintas. A metodologia proposta integra três contribuições técnicas principais: (i) um sistema de transformação baseado em regras para otimização de fluxos de trabalho que opera sobre a representação estendida do grafo; (ii) modelos de aprendizado de máquina para estimativa precisa dos tempos de execução; e (iii) um mecanismo de recalibração dinâmica que utiliza dados históricos de execução para se adaptar a cargas de trabalho em evolução. Implementamos o nosso modelo como uma extensão de um ambiente de programação visual existente para Ciência de Dados, demonstrando viabilidade prática em três configurações distintas de hardware e múltiplas ferramentas de processamento. A validação experimental demonstra que nossa abordagem possui 93% de acerto na seleção da ferramenta de processamento mais adequada e 75% de acerto na identificação de configurações ideais de hardware. Além disso, o sistema permite melhorias de desempenho de até 3,3 vezes em comparação com a execução tradicional utilizando uma única ferramenta, ao escalonar tarefas entre múltiplas ferramentas. A solução também exibe estabilidade em diversos ambientes de execução e a capacidade de evoluir por meio de aprendizado contínuo a partir de execuções históricas.
local.identifier.orcidhttps://orcid.org/0000-0002-1480-0039
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação
local.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Tese_LucasPonce_20260319.pdf
Tamanho:
2.83 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Item-specific license agreed to upon submission
Descrição: