DOD ETL: Distributed On-Demand Extract Transform Load for near real-time Business Intelligence
| dc.creator | Gustavo Vieira Machado | |
| dc.date.accessioned | 2025-12-05T17:47:58Z | |
| dc.date.issued | 2018-04-13 | |
| dc.description.abstract | A dinâmica competitiva do mercado globalizado demanda informações sobre a realidade interna e externa das corporações. A informação é um ativo precioso e é responsável por estabelecer vantagens-chave que permitem às empresas manter sua liderança. No entanto, informações confiáveis e ricas não são mais o único objetivo. O intervalo de tempo para extrair informações dos dados determina sua utilidade. Este trabalho propõe o DOD ETL (Distributed On-Demand ETL), uma solução que aborda o principal gargalo nas soluções de Business Intelligence: o processo de Extract Transform Load (ETL), fornecendo-o em near real-time. O DOD ETL alcança isso combinando um pipeline de fluxo de dados sob demanda com uma arquitetura distribuída e paralela construída sobre Kafka e Spark Streaming. A solução emprega Change Data Capture baseado em logs para minimizar o impacto no banco de dados de origem, cache em memória para evitar consultas custosas ao banco de dados, particionamento eficiente de dados para paralelização e mecanismos de buffer para lidar com dados com diferentes taxas de chegada. Avaliamos o DOD ETL através de cinco experimentos abrangentes que avaliaram escalabilidade, tolerância a falhas, eficácia do cache em memória, impacto da complexidade do modelo de dados e desempenho em implantação em produção. Os resultados demonstram que o DOD ETL escala linearmente com recursos computacionais, mantém tolerância a falhas com degradação de desempenho gradual e alcança desempenho 10 vezes melhor com cache em memória em comparação com consultas ao banco de dados. Implantamos o DOD ETL em uma grande siderúrgica brasileira, substituindo sua solução ETL legada para relatórios de Overall Equipment Effectiveness (OEE). Em produção, o DOD ETL reduziu o tempo de processamento de horas para menos de um minuto (9000 vezes mais rápido que a solução sequencial em lote anterior), permitindo relatórios OLAP em near real-time que anteriormente eram atualizados apenas duas vezes ao dia. | |
| dc.identifier.uri | https://hdl.handle.net/1843/1083 | |
| dc.language | eng | |
| dc.publisher | Universidade Federal de Minas Gerais | |
| dc.rights | Acesso aberto | |
| dc.subject | Computação – Teses | |
| dc.subject | Sistemas distribuídos – Teses | |
| dc.subject | Fluxo de dados (Computação) – Teses | |
| dc.subject | Processamento eletrônico de dados em tempo real – Teses | |
| dc.subject | Usuário final (Computação) – Teses | |
| dc.subject | Indústria siderúrgica – Brasil – Teses | |
| dc.subject.other | Near real-time ETL | |
| dc.subject.other | Business intelligence | |
| dc.subject.other | Stream processing | |
| dc.subject.other | Distributed systems | |
| dc.subject.other | Change data capture | |
| dc.title | DOD ETL: Distributed On-Demand Extract Transform Load for near real-time Business Intelligence | |
| dc.title.alternative | DOD ETL: Extração, Transformação e Carga Distribuídas Sob Demanda para Inteligência de Negócios em Tempo Quase Real | |
| dc.type | Dissertação de mestrado | |
| local.contributor.advisor-co1 | Adriano César Machado Pereira | |
| local.contributor.advisor-co1Lattes | http://lattes.cnpq.br/6813736989856243 | |
| local.contributor.advisor1 | Leonardo Barbosa e Oliveira | |
| local.contributor.advisor1Lattes | http://lattes.cnpq.br/2522777418118689 | |
| local.contributor.referee1 | Clodoveu Augusto Davis Júnior | |
| local.contributor.referee1 | Luiz Celso Gomes Junior | |
| local.creator.Lattes | https://lattes.cnpq.br/9894392215767781 | |
| local.description.resumo | The competitive dynamics of the globalized market demand information on the internal and external reality of corporations. Information is a precious asset and is responsible for establishing key advantages to enable companies to maintain their leadership. However, reliable, rich information is no longer the only goal. The time frame to extract information from data determines its usefulness. This work proposes DOD ETL (Distributed On-Demand ETL), a solution that addresses the main bottleneck in Business Intelligence solutions: the Extract Transform Load process (ETL), providing it in near real-time. DOD ETL achieves this by combining an on-demand data stream pipeline with a distributed and parallel architecture built on Kafka and Spark Streaming. The solution employs log-based Change Data Capture to minimize source database impact, in-memory caching to avoid expensive database lookbacks, efficient data partitioning for parallelization, and buffering mechanisms to handle data with different arrival rates. We evaluated DOD ETL through five comprehensive experiments assessing scal- ability, fault tolerance, in-memory cache effectiveness, data model complexity impact, and production deployment performance. Results demonstrate that DOD ETL scales linearly with computational resources, maintains fault tolerance with graceful performance degradation, and achieves 10 times better performance with in-memory caching compared to database lookbacks. We deployed DOD ETL in a major Brazilian steel manufacturing facility, replacing their legacy ETL solution for Overall Equipment Effectiveness (OEE) reporting. In production, DOD ETL reduced processing time from hours to less than a minute (9000 times faster than the previous sequential batch solution), enabling near real-time OLAP reports that were previously updated only twice daily. | |
| local.publisher.country | Brasil | |
| local.publisher.department | ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO | |
| local.publisher.initials | UFMG | |
| local.publisher.program | Programa de Pós-Graduação em Ciência da Computação | |
| local.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |