Enhancing machine learning models to evaluate optical water quality parameters of reservoirs through remote sensing data

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Tese de doutorado

Título alternativo

Aprimorando modelos de aprendizado de máquina para avaliar parâmetros ópticos de qualidade da água de reservatórios por meio de dados de sensoriamento remoto

Membros da banca

Raian Vargas Maretto
Cristiano Cristófaro Matosinhos
Lino Augusto Sander de Carvalho
José Marcato Junior

Resumo

Monitoring water quality in reservoirs is essential for maintaining aquatic ecosystems and socio-economic services. The activity is characterized by the use of specialized equipment operated by experienced professionals and requires in situ campaigns, a challenging condition in technical and financial terms. The scientific community has been looking for alternatives to increase the frequency and reduce the costs associated with monitoring, a scenario in which the use of machine learning (ML) techniques applied to remote sensing data has proven capable of estimating water quality parameters with satisfactory levels of accuracy, continuously and on a large scale, enabling cost-effective monitoring and supporting decision-making processes. This study aims to investigate and improve the application of ML techniques to evaluate optical water quality parameters (turbidity, chlorophyll-a (Chl-a), and Secchi disk depth) of reservoirs by processing satellite data under different approaches: regression, anomaly detection, and domain adaptation. The main object of analysis is the Três Marias Reservoir (MG), which has multiple purposes. In the Regression analysis, the parameters of interest presented optimized performance metrics under rigorous testing conditions. In this process, a methodological flow was developed that adapts to the particularities of the data, selecting the best models and variables. The flow's applicability has been verified in other reservoirs (Lagoa da Pampulha, among others), confirming the flow's capacity for self-adjustment in estimating optical parameters in lentic bodies of water with different characteristics. In the scope of Anomaly Detection, the turbidity parameter obtained excellent modeling capacity, and the applicability of the methods in the Três Marias Reservoir was assessed in hydrological contexts of dry and wet. The experiments with Domain Adaptation (DA) techniques for binary classification of chlorophyll concentration showed promising results. The methodology allowed the use of data from lentic and lotic environments in evaluating the Três Marias (oligotrophic) and Pampulha (hypereutrophic) reservoirs, proving their applicability in bodies of water with antagonistic hydrological characteristics. In addition, the PASS (Pre-adaptation Samples Selection) method was proposed, which optimizes processing and performance by selecting only samples from the source domain that are similar to the target. In the context of DA in a regression task, the PASS method was integrated into techniques for evaluating the parameters turbidity, Chl-a, and Secchi in the Três Marias and Pampulha reservoirs. For turbidity, there was good performance in capturing trends and adjusting the data, despite limitations in sample selection. In estimating Chl-a, the most effective strategy was to opt for a model with lower errors, given the stability of the parameter. For the Secchi parameter, the model showed potential applicability, with good estimation results and a low margin of error. It should be noted that most of the promising results were obtained using supervised methods. In a scenario that considers the limitations of access to in situ data for model development, greater research efforts should be directed toward improving unsupervised methods. In general, the various forms of ML explored achieved promising results, given the complexity of the problem: the Três Marias reservoir has complex water characteristics, a challenging modeling scenario. Finally, the experiments demonstrated that different ML approaches can provide independent and complementary diagnoses and analyses.

Abstract

O monitoramento da qualidade da água em reservatórios é essencial para a manutenção dos ecossistemas aquáticos e dos serviços socioeconômicos. A atividade é caracterizada pelo uso de equipamentos especializados operados por profissionais experientes e requer campanhas in situ, condição desafiadora no âmbito técnico e financeiro. A comunidade científica tem buscado alternativas para aumentar a frequência e reduzir os custos associados ao monitoramento, cenário no qual o uso de técnicas de aprendizado de máquina (Machine Learning, ML) aplicadas a dados de sensoriamento remoto tem se mostrado capaz de estimar parâmetros de qualidade da água com níveis satisfatórios de acurácia, de modo contínuo e em larga escala, possibilitando o monitoramento de forma custo-efetiva e subsidiando processos de tomada de decisão. Este estudo tem como objetivo investigar a aprimorar a aplicação de técnicas de ML para avaliar parâmetros ópticos de qualidade da água (turbidez, clorofila-a (Chl-a) e profundidade do disco de Secchi (Secchi)) de reservatórios por meio do processamento de dados de satélite sob diferentes abordagens: regressão, detecção de anomalias e adaptação de domínio. A pesquisa tem como objeto de análise principal o Reservatório de Três Marias (MG), que tem múltiplas finalidades. Na análise de Regressão, os parâmetros de interesse apresentaram métricas de desempenho otimizadas em condições de testes rigorosos, neste processo foi desenvolvido um fluxo metodológico que se adapta às particularidades dos dados, selecionando os melhores modelos e variáveis. A aplicabilidade do fluxo foi verificada em outros reservatórios (Lagoa da Pampulha, dentre outros), ratificando a capacidade de autoajuste do fluxo na estimativa de parâmetros ópticos em corpos d'água lênticos com características distintas. No escopo de Detecção de Anomalias, o parâmetro turbidez obteve excelente capacidade de modelagem, a aplicabilidade dos métodos no Reservatório de Três Marias foi aferida em contextos hidrológicos de seca e chuva. Os experimentos com técnicas de Adaptação de Domínio (AD) para classificação binária de concentração de clorofila mostraram resultados promissores. A metodologia permitiu o uso de dados de ambientes lênticos e lóticos na avaliação dos reservatórios de Três Marias (oligotrófico) e Pampulha (hipereutrófico), comprovando sua aplicabilidade em corpos d'água com características hidrológicas antagônicas. Além disso, foi proposto o método PASS (Pre-adaptation Samples Selection), que otimiza o processamento e o desempenho ao selecionar apenas amostras do domínio fonte semelhantes ao alvo. No contexto da DA em tarefa de regressão, o método PASS foi integrado às técnicas para avaliação dos parâmetros turbidez, Chl-a e Secchi no reservatório de Três Marias e Pampulha. Para turbidez, houve bom desempenho na captura de tendências e ajuste dos dados, apesar da limitação na seleção de amostras. Na estimativa de Chl-a, a estratégia mais eficaz foi optar por um modelo com menores erros, dada a estabilidade do parâmetro. Para o parâmetro Secchi, o modelo mostrou potencial de aplicabilidade, com bons resultados na estimativa e baixa margem de erro. Ressalta-se que a maioria dos resultados promissores foi obtida usando métodos supervisionados. Em um cenário que considera as limitações de acesso a dados in situ para desenvolvimento de modelos, maiores esforços de pesquisa devem ser direcionados para melhorar os métodos não supervisionados. Em geral, as várias formas de ML exploradas alcançaram resultados promissores, dada a complexidade do problema: o reservatório de Três Marias tem características de água complexas, cenário de modelagem desafiador. Por fim, os experimentos realizados demonstraram que diferentes abordagens de ML podem fornecer diagnósticos e análises independentes e complementares.

Assunto

Engenharia sanitária, Meio ambiente, Água - Qualidade, Aprendizado do computador, Sensoriamento remoto

Palavras-chave

Monitoring, Water quality, Machine learning, Domain adaptation, Anomaly detection, Remote sensing

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por