Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/42297
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Adriano Alonso Velosopt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/9973021912226739pt_BR
dc.contributor.advisor-co1Nivio Zivianipt_BR
dc.contributor.referee1Wagner Meira Júniorpt_BR
dc.contributor.referee2Leandro Balby Marinhopt_BR
dc.contributor.referee3Marco Antônio Pinheiro de Cristopt_BR
dc.contributor.referee4Daniel Ciampi Araújo de Andradept_BR
dc.creatorAnderson Bessa da Costapt_BR
dc.creator.Latteshttp://lattes.cnpq.br/7301361373989213pt_BR
dc.date.accessioned2022-06-06T22:03:52Z-
dc.date.available2022-06-06T22:03:52Z-
dc.date.issued2021-12-20-
dc.identifier.urihttp://hdl.handle.net/1843/42297-
dc.description.abstractA modelagem a partir de dados geralmente tem duas facetas distintas: construir modelos explicativos sólidos ou criar modelos preditivos poderosos para um sistema ou fenômeno. Embora exista um senso instintivo de que prever e explicar são tarefas distintas, muitas vezes se assume que modelos com alto poder explicativo são inerentemente de alto poder preditivo. Apesar desta relação, os mais recentes trabalhos de modelagem de dados se encaixam na metodologia de aprendizagem de máquina tudo-em-um, com a suposição básica de que todos os fatores explicativos importantes podem ser combinados em um único modelo preditivo. Embora altamente adotada e estabelecida, a metodologia tudo-em-um negligencia que muitos fenômenos são realmente definidos por várias subpopulações ou estruturas locais e, portanto, há muitos modelos de previsão possíveis que fornecem interpretações contrastantes ou explicações concorrentes para o mesmo fenômeno. Neste trabalho, apresentamos o ED-Ensemble (Explanation-Diversifying Ensemble), uma alternativa à metodologia tudo-em-um. Nossa principal intuição é que os modelos que têm suas decisões explicadas pelos mesmos fatores provavelmente farão melhores previsões dentro das mesmas estruturas locais. O ED-Ensemble obtido a partir de nossos experimentos superou consistentemente as abordagens tudo-em-um, mesmo empregando os algoritmos de ensemble de última geração XGBoost e Random Forest. Nossa abordagem proposta, considerando apenas primeira consulta, alcançou um AUC de 0,78 usando XGBoost como algoritmo de aprendizado, representando um ganho de desempenho relativo de até 20,37% comparado ao XGBoost tudo-em-um, e AUC de 0,75 quando usando Random Forest como algoritmo de aprendizado, com ganho de desempenho relativo de até 15,03% comparado ao Random Forest tudo-em-um. Além disso, o número de features é significativamente reduzido, fazendo uso de tão pouco quanto 15% das features. Ao considerar as consultas sequenciais, os experimentos mostraram consistentemente que quanto mais consultas consideradas, maior será o desempenho alcançado. Nossa abordagem EXP-MF combinada com o ED-Ensemble alcançou uma AUC de 0,945 (aumento de 23,37%) utilizando cinco consultas. Uma tendência de aumento semelhante na AUC também foi observada para os algoritmos EXP-MF combinado com XGBoost e EXP-MF combinado com Random Forest, alcançando 0,843 (aumento de 50%) e 0,810 (aumento de 62,98%), respectivamente. Finalmente, o ensemble proposto baseada em diversidade de explicações se apresentou como uma alternativa superior à abordagem tudo-em-um em problemas de fenômenos de múltiplas estruturas tanto nos dados de corte transversal quanto dados longitudinais.pt_BR
dc.description.resumoModeling from data usually has two distinct facets: building sound explanatory models or creating powerful predictive models for a system or phenomenon. While there is an instinctive sense that predicting and explaining are distinct tasks, it is often assumed that models with high explanatory power are inherently of high predictive power. In spite of this relationship, most recent data-modeling work fits into the all-in-one machine learning methodology, with the basic assumption that all important explanatory factors can be combined into a single predictive model. Although highly adopted and established, the all-in-one methodology neglects that many phenomena are actually defined by several subpopulations or local structures and therefore there are many possible predictive models that provide contrasting interpretations or competing explanations for the same phenomenon. In this work, we present ED-Ensemble (Explanation-Diversifying Ensemble), an alternative to the all-in-one methodology. Our main intuition is that models that have their decisions explained by the same factors will probably perform better predictions within the same local structures. We design and conduct an experimental evaluation as a case study to evaluate the performance of our methodology to model the evolution of pain relief in patients suffering from chronic pain under usual guideline-based treatment. Six hundred thirty-one participants self-completed the McGill Pain Questionnaire and the Visual Analogue Scale. Chronic pain can be primary or secondary to diseases. Its symptomatology can be classified as nociceptive, nociplastic or neuropathic, and is generally associated with many different causal structures, challenging the typical all-in-one methodology. We show that we can effectively combine models with competing explanations, promoting diversity in ensemble, leading to significant gains in accuracy by enforcing a stable scenario in which models that are similar in terms of their predictions are also similar in terms of explanatory factors. Further, we present EXP-MF (model-EXPlanations as Meta-Features). We follow the explanation-diversity feature selection proposed and extend it to use model-explanations as meta-features in longitudinal data, as the standard protocol for a patient typically comprises many subsequent appointments. This approach prevents us from neglecting a considerable amount of information. The ED-Ensemble obtained from our experiments consistently outperformed the all-in-one approaches, notwithstanding employing state-of-art ensemble algorithms XGBoost and Random Forest. Our proposed approach considering the first consultation only achieved an AUC of 0.78 using XGBoost as learning algorithm, relative performance gain up to 20.37% compared to the XGBoost all-in-one, and AUC of 0.75 when using Random Forest as learning algorithm, relative performance gain up to 15.03% compared to the Random Forest all-in-one approach. Also, the number of features is remarkably reduced, using as low as 15% of features. When considering sequential consultations, the experiments consistently showed that the more consultations granted, the higher the performance achieved. Our approach EXP-MF with an ED-Ensemble could achieve an AUC of 0.945 (increase of 23.37%) using five consultations. A similar uptrend in AUC was also observed for the XGBoost and Random Forest algorithms, achieving 0.843 (increase of 50%) and 0.810 (increase of 62.98%) respectively. Finally, our novel ensemble based on diversified explanations presented as a superior alternative to the all-in-one approach in multiple-structure phenomena problems with cross-sectional and longitudinal data.pt_BR
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICEX - INSTITUTO DE CIÊNCIAS EXATASpt_BR
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectMachine learningpt_BR
dc.subjectExplanatory modelingpt_BR
dc.subjectPredictive modelingpt_BR
dc.subjectBackbone structurespt_BR
dc.subjectEnsemble learningpt_BR
dc.subjectDiversity metricpt_BR
dc.subjectPrediction-explanation stabilitypt_BR
dc.subjectLongitudinal datapt_BR
dc.subject.otherComputação – Tesespt_BR
dc.subject.otherControle preditivo – Tesespt_BR
dc.subject.otherAprendizado de múltiplas instâncias – Tesespt_BR
dc.subject.otherAprendizado conjunto (aprendizado de máquina) – Tesespt_BR
dc.titleEnsemble learning by diversifying explanations: predicting the evolution of pain reliefpt_BR
dc.typeTesept_BR
dc.identifier.orcidhttps://orcid.org/ 0000-0003-4339-3003pt_BR
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Ensemble learning by diversifying explanations.pdf11.67 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.