Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/59063
Type: Dissertação
Title: Optimal feature selection based on chemical engineering concepts and proposal soft sensor to predict f-CaO in clinker using industrial data
Other Titles: Seleção ideal de variáveis com base em conceitos de engenharia química e proposta de sensor virtual para predizer f-CaO no clínquer utilizando dados industriais
Authors: Marina Rodrigues de Oliveira Seibert
First Advisor: Esly Ferreira da Costa Junior
First Referee: Gustavo Matheus de Almeida
Second Referee: Andrea Oliveira Souza da Costa
Abstract: Mineral and cement industries are directly related to the world's economic development and supply essential materials for the clean-energy transition. However, the cement industry is responsible for 7% of worldwide CO2 emissions. The development of a soft sensor to predict free lime (f-CaO) represents an improvement due to reducing the specific thermal energy consumption to produce clinker, the main and most expensive cement component while maintaining the desired cement quality. Any new technology involving the cement industry has to consider the complex heterogenous chemical reactions involved in clinker production. A demonstration of the importance of an optimal feature selection regarding the kiln system, which impacts the f-CaO, and interpreting the meaning of these variables from a phenomenological point of view, including concepts related to thermodynamics, fluid dynamics and chemical kinetics is the main distinguisher of this work, for it is not a common approach in literature. Six months of industrial data were investigated using a combination of deep system knowledge , as well as statical tools to determine the optimal operational and quality features that impact the f-CaO at clinker; with the subset of features defined, the second step was applying machine learning techniques on the data to develop a soft sensor to predict f-CaO; MATLAB, Microsoft Excel®, self-written code using C++ language and Python libraries, such as pandas, NumPy and statsmodels, were used to implement the data analysis, which includes data pre-processing, multiple linear regression (MLR), and prediction models using standard machine learning algorithms. In the pre-processing step, inconsistent features were deleted, and knowledge about kiln operation was the basis for decision-making. The filter for the final dataset was based on clinker quality features because there is no clinker sampling if the kiln system fails. Then, previous clinker quality features were input together with the time series sample. Two datasets were generated, due to approximately 50% of the data being continuous raw meal quality values (online chemical analyses). The first dataset, DATASET01, consists of all the data WITHOUT the online chemical analyses’ features. The second dataset, DATASET02, is the data WITH the online chemical analyses’ features. For each dataset, various simulations were carried out using MLR combined with the forward stepwise methodology to select the feature set. Robust algorithms cannot compensate for an incorrect variable setup; therefore the feature selection step is as important as the application of the prediction algorithm. The results obtained in the MLR demonstrated the importance of the feature selection step. The variables related to the chemical composition and cooler operation have a substantial influence on the prediction models for f-CaO. The complex statistical models (XGBoost, CatBoost, SVM and RDF) had poor performance and hyperparameter optimization combined with the methodology present in the current work is suggested for future research. Finally, the multivariate polynomial models had satisfactory results, with R2=0.78 in the fourth-degree model and R2=0.75 in the three-degree model. There are opportunities to improve the polynomials model's performance for a bigger dataset size with raw meal chemical analysis online available.
Abstract: As indústrias de cimento e mineração estão diretamente relacionadas com o desenvolvimento econômico mundial e fornecem materiais essenciais para a transição para energias limpas. Contudo, a indústria cimenteira é responsável por 7% das emissões mundiais de CO2. O desenvolvimento de um sensor virtual para previsão de cal livre (f-CaO) representa uma melhoria, pois diminui o consumo específico de energia térmica para a produção do clínquer, principal componente do cimento. Qualquer nova tecnologia na indústria cimenteira deve considerar as reações químicas heterogêneas envolvidas na produção do clínquer. Demonstrar a importância da seleção de variáveis do sistema que impactam o f-CaO e interpretar o significado das variáveis do ponto de vista fenomenológico, que incluiu conceitos relacionados à termodinâmica, mecânica dos fluidos, cinética química, é um diferencial, pois não é uma abordagem usual na literatura. Seis meses de dados industriais foram analisados para determinar o conjunto ótimo de variáveis; com o subconjunto definido, a segunda etapa foi aplicar as técnicas de aprendizado de máquina nos dados para desenvolver um sensor virtual capaz de prever f-CaO no clinquer; softwares como MATLAB, Microsoft Excel®, códigos em linguagem C++, bibliotecas escritas para a linguagem Python como pandas, NumPy foram utilizados para implementar a análise de dados, que inclui pré-processamento, regressão linear múltipla (MLR) entre outros. Algoritmos de aprendizado de máquina foram utilizados para modelos de previsão. Na etapa de pré-processamento, as variáveis inconsistentes foram eliminadas e o conhecimento sobre a operação do forno foi o alicerce para a tomada de decisão. O filtro para o conjunto final de dados foi as variáveis relacionadas a qualidade do clínquer, uma vez que não há amostragem do clínquer se o sistema do forno falhar. Em seguida, variáveis da amostragem anterior da qualidade do clínquer foram inseridas juntamente com a amostra atual. Dois conjuntos de dados foram gerados, pois cerca de 50% dos dados possuíam valores contínuos da qualidade da farinha. O primeiro conjunto de dados, DATASET01, contém todos os dados SEM as variáveis das análises químicas online. O segundo conjunto de dados, DATASET02, são os dados COM as variáveis das análises químicas online. Para cada conjunto de dados foram realizadas várias simulações com MLR combinada com a metodologia forward-stepwise para selecionar o conjunto de variáveis. Algoritmos robustos não podem compensar a falha na escolha das variáveis; a seleção de variáveis é tão importante quanto a aplicação dos próprios algoritmos de previsão. Os resultados obtidos na MLR demonstraram a importância da etapa de seleção de variáveis. As variáveis relacionadas à composição química e operação do resfriador têm influência substancial nos modelos de predição do f-CaO. Os modelos estatísticos complexos (XGBoost, CatBoost, SVM ; RDF) tiveram baixo desempenho; a otimização dos hiperparâmetros combinada com a metodologia apresentada neste trabalho é sugerida para trabalhos futuros. Finalmente, os modelos polinomiais multivariados tiveram resultados satisfatórios, com R2=0.78 e R2=0.75 nos modelos de terceiro e quarto grau respectivamente. Há oportunidades para melhorar o desempenho do modelo polinomial para um conjunto de dados maior com a análise química da farinha crua online disponível.
Subject: Engenharia quimica
Mineração
Cimento - Indústria
Óxido de cálcio
Polinômios
Sensor virtual
Fenomenologia
Variáveis (Matemática)
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ENG - DEPARTAMENTO DE ENGENHARIA QUÍMICA
metadata.dc.publisher.program: Programa de Pós-Graduação em Engenharia Química
Rights: Acesso Restrito
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI: http://hdl.handle.net/1843/59063
Issue Date: 25-Aug-2023
metadata.dc.description.embargo: 25-Aug-2025
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
Optimal feature selection based on chemical engineering concepts and proposal soft sensor to predict f-CaO in clinker using industrial data.pdf
???org.dspace.app.webui.jsptag.ItemTag.restrictionUntil??? 2025-08-25
7.88 MBAdobe PDFView/Open    Request a copy


This item is licensed under a Creative Commons License Creative Commons