Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/82065
Type: Tese
Title: Explainability and causality for generalization approximation in environments with distribution shifts
Other Titles: Explicabilidade e causalidade para aproximação da generalização em ambientes com mudanças de distribuição
Authors: Ismael Santana Silva
First Advisor: Adriano Alonso Veloso
First Referee: Marcos Oliveira Prates
Second Referee: Leandro Balby Marinho
Third Referee: George Luiz Medeiros Teodoro
metadata.dc.contributor.referee4: Wagner Meira Júnior
metadata.dc.contributor.referee5: Anderson Almeida Ferreira
Abstract: Recent studies have showed that the estimated performance of a classification model in a specific source (training) dataset can be very different from the performance of the same model after the deployment in the real world, or when we evaluate the model in a target dataset with different distribution from the source dataset. We can call this problem of distribution shift or dataset shift, and an emerging strategy for this problem is to estimate the performance of the classification model in unlabeled data with unknown distribution (i.e., aka AutoEval approaches). Most recent works have studied how distribution shift affects Deep Learning Models applied to Computer Vision tasks (i.e., unstructured data). However, distribution shifts can also affect the performance of a model on tabular/structured data. This thesis explored explainability and causality learning to propose novel AutoEval approaches on tabular data. First, we presented the method eXplainability for Automatic Model Evaluation (X-Eval), an AutoEval algorithm based on the use of metrics which are typically used as model explanations (e.g., SHAP values, and prediction confidence) to detect patterns of correct and incorrect predictions to estimate model performance. Next, we proposed the Causality for Automatic Model Evaluation (C-Eval) approach, an AutoEval method based on causality among the features. The C-Eval goal is to regularize the estimation of a performance estimator (e.g., 10-fold cross-validation) according to distribution shifts detected from differences in the causal graphs inferred from the source and the target data. Finally, we conducted experiments with real-world and synthetic data. We evaluated the proposed approaches using (1) six real-world datasets related to three subjects (i.e., COVID-19, Alzheimer’s disease, and School dropout), and (2) synthetic data simulating different types of distribution shifts. Our results indicated that our proposed methods outperform the baseline, with a reduction of up to 100% in the gap between the estimated and the true performance, compared with standard 10-fold cross-validation error estimation. Besides, we evaluated our AutoEval approaches as indicators for model selection in the feature selection task. In this task, compared to CV, the proposed algorithms achieved gains up to 77%, regarding the macro f1 in the target set. Given this context, our proposed methods can contribute to the continuous evaluation of a classification model in production environments (i.e., executing a task in the real-world). Furthermore, our findings contribute to research areas such as Semi-Supervised learning, Active Learning, and Transfer Learning. Given that the algorithms in these areas often deal with data from different distributions, the improved model performance estimation can improve the efficacy of these algorithms.
Abstract: Estudos recentes mostraram que o desempenho estimado de um modelo de classificação em um conjunto de dados de origem específico (treinamento) pode ser muito diferente do desempenho do mesmo modelo após a implantação no mundo real, ou quando avaliamos o modelo em um conjunto de dados alvo com distribuição diferente do conjunto de dados de origem. Podemos chamar esse problema de mudança de distribuição (do inglês distribution shift) ou mudança de conjunto de dados (do inglês dataset shift), e uma estratégia emergente para esse problema é estimar o desempenho do modelo de classificação em dados não rotulados com distribuição desconhecida, essas estratégias são conhecidas como Avaliação Automática do Modelo (do inglês Automatic Model Evaluation ou AutoEval). A maioria dos trabalhos recentes estudaram como a mudança de distribuição afeta os modelos de aprendizado profundo aplicados a tarefas de visão computacional (ou seja, dados não estruturados). No entanto, as mudanças na distribuição também podem afetar o desempenho de um modelo em dados tabulares/estruturados. Diante deste contexto, esta tese explorou a explicabilidade e o aprendizado de causalidade para propor novas abordagens de AutoEval para modelos aplicados a dados tabulares. Primeiramente, apresentamos o método eXplainability for Automatic Model Eval (X-Eval), um algoritmo de AutoEval baseado no uso de métricas que normalmente são usadas para explicação de modelos (por exemplo, SHAP values e confiança na previsão) para detectar padrões de predições corretas e incorretas, para estimar o desempenho do modelo. Em seguida, propusemos a abordagem Causality for Automatic Model Evaluation (C-Eval), um método de AutoEval baseado na causalidade entre os atributos do conjunto de dados. O objetivo do C-Eval é regularizar a estimativa de um estimador de desempenho (por exemplo, da validação cruzada) de acordo com as mudanças de distribuição detectadas a partir de diferenças nos gráficos causais inferidos dos dados de origem e dos dados alvo. Finalmente, conduzimos experimentos com dados do mundo real e sintéticos. Especificamente, avaliamos as abordagens propostas usando (1) seis conjuntos de dados do mundo real relacionados a três assuntos (isto é, COVID-19, doença de Alzheimer e abandono escolar) e (2) dados sintéticos simulando diferentes tipos de mudanças de distribuição. Nossos resultados indicam que os métodos propostos superaram a linha de base, alcançando até erro zero na estimativa de desempenho do modelo. Além disso, avaliamos nossas abordagens de AutoEval como indicadores para seleção de modelos na tarefa de seleção de atributos. Nesta tarefa, comparado ao CV, os algoritmos propostos obtiveram ganhos de até 77%, em relação à macro f1 no conjunto alvo. Dado o exposto, os métodos propostos podem contribuir para a avaliação contínua de um modelo de classificação em produção (isto é, em execução no mundo real). Além disso, nossas descobertas contribuem para áreas de pesquisa como Aprendizado Semi-Supervisionado, Aprendizado Ativo e Aprendizagem por Transferência, dado que os algoritmos nestas áreas frequentemente lidam com dados de diferentes distribuições e uma estimativa do desempenho do modelo mais precisa pode melhorar a eficácia dos algoritmos nessas áreas.
Subject: Computação - Teses
Aprendizagem do Computador - Teses
Classificação (Computadores) - Teses
COVID-19 (Doença) - Teses
Alzheimer, Doença de - Teses
Evasão Escolar - Teses
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program: Programa de Pós-Graduação em Ciência da Computação
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/82065
Issue Date: 24-Oct-2024
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Tese_Ismael-final.pdf14.01 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.