DOD ETL: Distributed On-Demand Extract Transform Load for near real-time Business Intelligence
Carregando...
Arquivos
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
DOD ETL: Extração, Transformação e Carga Distribuídas Sob Demanda para Inteligência de Negócios em Tempo Quase Real
Primeiro orientador
Membros da banca
Clodoveu Augusto Davis Júnior
Luiz Celso Gomes Junior
Luiz Celso Gomes Junior
Resumo
The competitive dynamics of the globalized market demand information on the internal and external reality of corporations. Information is a precious asset and is responsible for
establishing key advantages to enable companies to maintain their leadership. However, reliable, rich information is no longer the only goal. The time frame to extract information
from data determines its usefulness. This work proposes DOD ETL (Distributed On-Demand ETL), a solution that addresses the main bottleneck in Business Intelligence solutions: the Extract Transform Load process (ETL), providing it in near real-time. DOD ETL achieves this by combining an on-demand data stream pipeline with a distributed and parallel architecture built on Kafka and Spark Streaming. The solution employs log-based Change Data Capture to minimize source database impact, in-memory caching to avoid expensive database
lookbacks, efficient data partitioning for parallelization, and buffering mechanisms to handle data with different arrival rates. We evaluated DOD ETL through five comprehensive experiments assessing scal- ability, fault tolerance, in-memory cache effectiveness, data model complexity impact, and production deployment performance. Results demonstrate that DOD ETL scales linearly with computational resources, maintains fault tolerance with graceful performance degradation, and achieves 10 times better performance with in-memory caching compared to database lookbacks. We deployed DOD ETL in a major Brazilian steel manufacturing facility, replacing their legacy ETL solution for Overall Equipment Effectiveness (OEE) reporting. In production, DOD ETL reduced processing time from hours to less than a minute (9000 times faster than the previous sequential batch solution), enabling near real-time OLAP
reports that were previously updated only twice daily.
Abstract
A dinâmica competitiva do mercado globalizado demanda informações sobre a realidade interna e externa das corporações. A informação é um ativo precioso e é responsável por
estabelecer vantagens-chave que permitem às empresas manter sua liderança. No entanto, informações confiáveis e ricas não são mais o único objetivo. O intervalo de tempo para extrair informações dos dados determina sua utilidade. Este trabalho propõe o DOD ETL (Distributed On-Demand ETL), uma solução que aborda o principal gargalo nas soluções de Business Intelligence: o processo de Extract Transform Load (ETL), fornecendo-o em near real-time. O DOD ETL alcança isso combinando um pipeline de fluxo de dados sob demanda com uma arquitetura distribuída e paralela construída sobre Kafka e Spark Streaming. A solução emprega Change Data Capture baseado em logs para minimizar o impacto no banco de dados de origem, cache em memória para evitar consultas custosas ao banco de dados, particionamento eficiente de dados para paralelização e mecanismos de buffer para lidar com dados com diferentes taxas de chegada. Avaliamos o DOD ETL através de cinco experimentos abrangentes que avaliaram escalabilidade, tolerância a falhas, eficácia do cache em memória, impacto da complexidade do modelo de dados e desempenho em implantação em produção. Os resultados demonstram que o DOD ETL escala linearmente com recursos computacionais, mantém tolerância a falhas com degradação de desempenho gradual e alcança desempenho 10 vezes melhor com cache em memória em comparação com consultas ao banco de dados.
Implantamos o DOD ETL em uma grande siderúrgica brasileira, substituindo sua solução ETL legada para relatórios de Overall Equipment Effectiveness (OEE). Em produção, o DOD ETL reduziu o tempo de processamento de horas para menos de um minuto (9000 vezes mais rápido que a solução sequencial em lote anterior), permitindo relatórios OLAP em near real-time que anteriormente eram atualizados apenas duas vezes ao dia.
Assunto
Computação – Teses, Sistemas distribuídos – Teses, Fluxo de dados (Computação) – Teses, Processamento eletrônico de dados em tempo real – Teses, Usuário final (Computação) – Teses, Indústria siderúrgica – Brasil – Teses
Palavras-chave
Near real-time ETL, Business intelligence, Stream processing, Distributed systems, Change data capture