Variações temporais em fatores de risco individuais e hospitalares em pacientes internados com covid-19 utilizando método de aprendizado de máquina

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Dissertação de mestrado

Título alternativo

Unraveling relevant cross-waves pattern drifts in patient-hospital risk factors among hospitalized Covid-19 patients using explainable machine learning methods

Primeiro orientador

Membros da banca

Leonardo Chaves Dutra da Rocha
Magda Carvalho Pires

Resumo

Diversos estudos investigaram fatores associados a desfechos clínicos adversos em pacientes com covid-19; contudo, poucos avaliaram o impacto das mudanças temporais na força de associação entre diferentes preditores e desfechos clínicos. Este estudo teve como objetivo avaliar a variação da capacidade preditiva de fatores relacionados aos pacientes e aos hospitais para os desfechos morte intra-hospitalar, ventilação mecânica invasiva (VMI) e transferência para unidade de terapia intensiva (UTI) ao longo das diferentes ondas da pandemia. Trata-se de uma coorte retrospectiva multicêntrica, envolvendo pacientes com covid-19 internados em 39 hospitais, entre março de 2020 e agosto de 2022. A pandemia foi dividida em três ondas: 10/03/2020–14/11/2020 (primeira), 15/11/2020–25/12/2021 (segunda), e 26/12/2021–03/08/2022 (terceira). Foram analisados fatores de risco relacionados aos pacientes, que incluíram dados clínicos, demográficos e laboratoriais no momento da admissão hospitalar e fatores hospitalares, que abrangeram fonte de renda hospitalar, acreditação, natureza acadêmica e características socioeconômicas da cidade onde o hospital se localizava. Utilizaram-se valores Shapley Additive Explanations (SHAP) derivados de um modelo Light Gradient Boosting Machine (LightGBM) para avaliação dos fatores de risco para óbito, VMI e admissão em UTI. No total, foram incluídos 16.958 pacientes adultos (idade mediana de 59 anos, 54,7% do sexo masculino). O modelo LightGBM apresentou métricas de desempenho competitivas em todos os períodos. Foram observados drifts temporais, com queda em diversas métricas, como o recall para a classe positiva [UTI: 0,4211 (onda 1) para 0,1951 (onda 3); VMI: 0,2089 (onda 1) para 0,0438 (onda 3); óbito: 0,2711 (onda 1) para 0,1175 (onda 3)]. A relação entre a saturação periférica de oxigênio e a fração inspirada de oxigênio (SatO₂/FiO₂), ao momento da admissão, apresentou alta capacidade preditiva para todos os desfechos, com ponto de corte ótimo para predição de óbito de 227,78. Linfopenia teve sua força de associação aumentada ao longo do tempo para todos os desfechos, com ponto de corte ótimo para óbito de 643 x10⁹/L. Trombocitopenia foi o fator de maior relevância na segunda onda para admissão em UTI; de forma geral, valores inferiores a 143.000 x10⁹/L estiveram mais associados ao desfecho óbito. Foram identificados drifts em todos os cenários analisados, o que afetou as capacidades preditivas do modelo de aprendizado de máquina. Na admissão hospitalar, valores de SatO₂/FiO₂, contagem de plaquetas e linfócitos mostraram-se preditores importantes de desfechos adversos em pacientes com covid-19. De forma geral, marcadores de resposta inflamatória foram mais relevantes do que características clínicas. As limitações incluem representatividade da amostra e fatores de confusão. A incorporação do conhecimento sobre os drifts aos modelos preditivos representa um desafio, exigindo atualizações contínuas e monitoramento de desempenho em modelos do mundo real.

Abstract

Several studies explored factors related to adverse clinical outcomes among COVID-19 patients but lacked analysis of the impact of the temporal data shifts on the strength of association between different predictors and adverse outcomes. This study aims to evaluate the impact of factors related to patients and hospitals in the prediction of in-hospital mortality, invasive mechanical ventilation (IMV), and intensive care unit (ICU) transfer throughout the pandemic waves. This multicenter retrospective cohort included COVID-19 patients from 39 hospitals, from March/2020 to August/2022. The pandemic was divided into waves: 10/03/2020-14/11/2020 (first), 15/11/2020-25/12/2021 (secund), 26/12/2021-03/08/2022 (third). Patient-related factors included clinical, demographic, and laboratory data at hospital admission, while hospital-related factors covered funding sources, accreditation, academic status, and socioeconomic characteristics. Shapley Additive Explanation (SHAP) values derived from the predictions of a Light Gradient-Boosting Machine (LightGBM) model were used to assess potential risk factors for death, IMV and ICU. Overall, 16,958 adult patients were included (median age 59 years, 54.7% men). LightGBM achieved competitive effectiveness metrics across all periods. Temporal drifts were observed due to a decrease in various metrics, such as the recall for the positive class [ICU: 0.4211 (wave 1) to 0.1951 (wave 3); IMV: 0.2089 (wave 1) to 0.0438 (wave 3); death: 0.2711 (wave 1) to 0.1175 (wave 3)]. Peripheral arterial oxygen saturation to the fraction of inspired oxygen ratio (SatO2/FiO2) at admission had great predictive capacity for all outcomes, with an optimal cut-off value for death prediction of 227.78. Lymphopenia had its association strength increased over time for all outcomes, optimal threshold for death prediction of 643x109/L. Thrombocytopenia was the most important feature in wave 2 (ICU); overall, values below 143,000x109/L were more related to death. Data drifts were observed in all scenarios, affecting potential predictive capabilities of explainable machine learning methods. Upon admission, SatO2/FiO2 values, platelet and lymphocyte count were significant predictors of adverse outcomes in COVID-19 patients. Overall, inflammatory response markers were more important than clinical characteristics. Limitations included sample representativeness and confounding factors. Integrating the drift's knowledge into models to improve effectiveness is a challenge, requiring continuous updates and monitoring of performance in real-world applications.

Assunto

Unidades de Terapia Intensiva, COVID-19, Fatores de Risco, Pessoa de Meia-Idade, Mortalidade Hospitalar, Pandemias, Respiração Artificial, Fatores de Tempo, Estudos de Coortes, SARS-CoV-2, Algoritmos de Reforço para Aprendizado de Máquina

Palavras-chave

Covid-19, Fatores de risco, Fatores socioeconômicos, Aprendizado de máquina, Resultados de cuidados críticos, Mortalidade

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso aberto