Optimal feature selection based on chemical engineering concepts and proposal soft sensor to predict f-CaO in clinker using industrial data

Marina Rodrigues de Oliveira Seibert

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/59063

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Esly Ferreira da Costa Junior	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8728185124922423	pt_BR
dc.contributor.referee1	Gustavo Matheus de Almeida	pt_BR
dc.contributor.referee2	Andrea Oliveira Souza da Costa	pt_BR
dc.creator	Marina Rodrigues de Oliveira Seibert	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/6960622399949309	pt_BR
dc.date.accessioned	2023-10-02T18:39:17Z	-
dc.date.available	2023-10-02T18:39:17Z	-
dc.date.issued	2023-08-25	-
dc.identifier.uri	http://hdl.handle.net/1843/59063	-
dc.description.abstract	As indústrias de cimento e mineração estão diretamente relacionadas com o desenvolvimento econômico mundial e fornecem materiais essenciais para a transição para energias limpas. Contudo, a indústria cimenteira é responsável por 7% das emissões mundiais de CO2. O desenvolvimento de um sensor virtual para previsão de cal livre (f-CaO) representa uma melhoria, pois diminui o consumo específico de energia térmica para a produção do clínquer, principal componente do cimento. Qualquer nova tecnologia na indústria cimenteira deve considerar as reações químicas heterogêneas envolvidas na produção do clínquer. Demonstrar a importância da seleção de variáveis do sistema que impactam o f-CaO e interpretar o significado das variáveis do ponto de vista fenomenológico, que incluiu conceitos relacionados à termodinâmica, mecânica dos fluidos, cinética química, é um diferencial, pois não é uma abordagem usual na literatura. Seis meses de dados industriais foram analisados para determinar o conjunto ótimo de variáveis; com o subconjunto definido, a segunda etapa foi aplicar as técnicas de aprendizado de máquina nos dados para desenvolver um sensor virtual capaz de prever f-CaO no clinquer; softwares como MATLAB, Microsoft Excel®, códigos em linguagem C++, bibliotecas escritas para a linguagem Python como pandas, NumPy foram utilizados para implementar a análise de dados, que inclui pré-processamento, regressão linear múltipla (MLR) entre outros. Algoritmos de aprendizado de máquina foram utilizados para modelos de previsão. Na etapa de pré-processamento, as variáveis inconsistentes foram eliminadas e o conhecimento sobre a operação do forno foi o alicerce para a tomada de decisão. O filtro para o conjunto final de dados foi as variáveis relacionadas a qualidade do clínquer, uma vez que não há amostragem do clínquer se o sistema do forno falhar. Em seguida, variáveis da amostragem anterior da qualidade do clínquer foram inseridas juntamente com a amostra atual. Dois conjuntos de dados foram gerados, pois cerca de 50% dos dados possuíam valores contínuos da qualidade da farinha. O primeiro conjunto de dados, DATASET01, contém todos os dados SEM as variáveis das análises químicas online. O segundo conjunto de dados, DATASET02, são os dados COM as variáveis das análises químicas online. Para cada conjunto de dados foram realizadas várias simulações com MLR combinada com a metodologia forward-stepwise para selecionar o conjunto de variáveis. Algoritmos robustos não podem compensar a falha na escolha das variáveis; a seleção de variáveis é tão importante quanto a aplicação dos próprios algoritmos de previsão. Os resultados obtidos na MLR demonstraram a importância da etapa de seleção de variáveis. As variáveis relacionadas à composição química e operação do resfriador têm influência substancial nos modelos de predição do f-CaO. Os modelos estatísticos complexos (XGBoost, CatBoost, SVM ; RDF) tiveram baixo desempenho; a otimização dos hiperparâmetros combinada com a metodologia apresentada neste trabalho é sugerida para trabalhos futuros. Finalmente, os modelos polinomiais multivariados tiveram resultados satisfatórios, com R2=0.78 e R2=0.75 nos modelos de terceiro e quarto grau respectivamente. Há oportunidades para melhorar o desempenho do modelo polinomial para um conjunto de dados maior com a análise química da farinha crua online disponível.	pt_BR
dc.description.resumo	Mineral and cement industries are directly related to the world's economic development and supply essential materials for the clean-energy transition. However, the cement industry is responsible for 7% of worldwide CO2 emissions. The development of a soft sensor to predict free lime (f-CaO) represents an improvement due to reducing the specific thermal energy consumption to produce clinker, the main and most expensive cement component while maintaining the desired cement quality. Any new technology involving the cement industry has to consider the complex heterogenous chemical reactions involved in clinker production. A demonstration of the importance of an optimal feature selection regarding the kiln system, which impacts the f-CaO, and interpreting the meaning of these variables from a phenomenological point of view, including concepts related to thermodynamics, fluid dynamics and chemical kinetics is the main distinguisher of this work, for it is not a common approach in literature. Six months of industrial data were investigated using a combination of deep system knowledge , as well as statical tools to determine the optimal operational and quality features that impact the f-CaO at clinker; with the subset of features defined, the second step was applying machine learning techniques on the data to develop a soft sensor to predict f-CaO; MATLAB, Microsoft Excel®, self-written code using C++ language and Python libraries, such as pandas, NumPy and statsmodels, were used to implement the data analysis, which includes data pre-processing, multiple linear regression (MLR), and prediction models using standard machine learning algorithms. In the pre-processing step, inconsistent features were deleted, and knowledge about kiln operation was the basis for decision-making. The filter for the final dataset was based on clinker quality features because there is no clinker sampling if the kiln system fails. Then, previous clinker quality features were input together with the time series sample. Two datasets were generated, due to approximately 50% of the data being continuous raw meal quality values (online chemical analyses). The first dataset, DATASET01, consists of all the data WITHOUT the online chemical analyses’ features. The second dataset, DATASET02, is the data WITH the online chemical analyses’ features. For each dataset, various simulations were carried out using MLR combined with the forward stepwise methodology to select the feature set. Robust algorithms cannot compensate for an incorrect variable setup; therefore the feature selection step is as important as the application of the prediction algorithm. The results obtained in the MLR demonstrated the importance of the feature selection step. The variables related to the chemical composition and cooler operation have a substantial influence on the prediction models for f-CaO. The complex statistical models (XGBoost, CatBoost, SVM and RDF) had poor performance and hyperparameter optimization combined with the methodology present in the current work is suggested for future research. Finally, the multivariate polynomial models had satisfactory results, with R2=0.78 in the fourth-degree model and R2=0.75 in the three-degree model. There are opportunities to improve the polynomials model's performance for a bigger dataset size with raw meal chemical analysis online available.	pt_BR
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ENG - DEPARTAMENTO DE ENGENHARIA QUÍMICA	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Engenharia Química	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Restrito	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/	*
dc.subject	Free calcium oxide content	pt_BR
dc.subject	Soft sensor	pt_BR
dc.subject	Cement industry	pt_BR
dc.subject	Multivariate polynomials	pt_BR
dc.subject	Feature selection	pt_BR
dc.subject	Phenomenological parameters	pt_BR
dc.subject.other	Engenharia quimica	pt_BR
dc.subject.other	Mineração	pt_BR
dc.subject.other	Cimento - Indústria	pt_BR
dc.subject.other	Óxido de cálcio	pt_BR
dc.subject.other	Polinômios	pt_BR
dc.subject.other	Sensor virtual	pt_BR
dc.subject.other	Fenomenologia	pt_BR
dc.subject.other	Variáveis (Matemática)	pt_BR
dc.title	Optimal feature selection based on chemical engineering concepts and proposal soft sensor to predict f-CaO in clinker using industrial data	pt_BR
dc.title.alternative	Seleção ideal de variáveis com base em conceitos de engenharia química e proposta de sensor virtual para predizer f-CaO no clínquer utilizando dados industriais	pt_BR
dc.type	Dissertação	pt_BR
dc.description.embargo	2025-08-25	-
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
Optimal feature selection based on chemical engineering concepts and proposal soft sensor to predict f-CaO in clinker using industrial data.pdf ???org.dspace.app.webui.jsptag.ItemTag.restrictionUntil??? 2025-08-25		7.88 MB	Adobe PDF	View/Open Request a copy

Show simple item record

This item is licensed under a Creative Commons License