《Frontiers in Cellular and Infection Microbiology》:Development of a machine learning-based mortality prediction model for patients with mental disorders and COVID-19
编辑推荐:
引言:患有精神障碍的个体面临新型冠状病毒肺炎(COVID-19)不良结局的风险增加,但针对该特定人群的预后证据仍然有限。本研究旨在开发并验证机器学习模型,以预测住院治疗的合并精神障碍且经实验室确诊的 COVID-19 患者的 31 天死亡率。方法:回顾性收集了
引言:患有精神障碍的个体面临新型冠状病毒肺炎(COVID-19)不良结局的风险增加,但针对该特定人群的预后证据仍然有限。本研究旨在开发并验证机器学习模型,以预测住院治疗的合并精神障碍且经实验室确诊的 COVID-19 患者的 31 天死亡率。方法:回顾性收集了中国河南省 10 家医院的 439 名住院患者数据。患者被随机分为训练队列(n = 308)和独立测试队列(n = 131)。在模型开发过程中应用过采样技术以解决类别不平衡问题。利用最小绝对收缩和选择算子(LASSO)、Boruta 算法和随机森林方法筛选候选预测因子,并训练了八种机器学习算法。采用 SHapley 加法解释(SHAP)分析进行模型解释,并通过 Kaplan–Meier 分析比较模型定义的风险组之间的生存情况。结果:患者群体普遍年龄较大,女性占 63.1%,合并症常见。多种模型在训练队列中显示出良好的区分度,尽管部分模型出现过拟合现象。在测试队列中,采用 LASSO 筛选特征的神经网络模型表现最佳,其受试者工作特征曲线下面积(AUC)为 0.911(95% 置信区间 [CI]:0.832–0.990)。SHAP 分析确定伴随激素治疗、碱性磷酸酶(ALP)和淋巴细胞计数是主要的预测因子。高风险组的累积死亡率显著高于低风险组(log-rank P < 0.0001)。讨论:基于常规临床和实验室变量的机器学习模型可能支持对该区域多中心队列进行短期死亡风险分层。
**研究背景与意义**
冠状病毒病 2019(COVID-19)由严重急性呼吸综合征冠状病毒 2(SARS-CoV-2)引起,仍是全球重大的健康挑战。已确立的 COVID-19 重症风险因素包括高龄、肥胖、吸烟、心血管疾病、糖尿病 mellitus、慢性阻塞性肺疾病(COPD)及高血压等。患有精神障碍的个体可能尤为脆弱,这不仅因为她们这些合并症的患病率较高,还因为其面临更高的 COVID-19 感染风险及包括住院和死亡在内的不良结局风险。这种脆弱性可能因促进病毒传播的共同居住环境、共存的慢性疾病以及与长期使用精神药物相关的潜在呼吸系统并发症而进一步加剧。因此,早期识别并准确预测合并精神障碍的 COVID-19 患者的死亡风险,对于指导医疗资源分配和支持个体化治疗策略至关重要。
尽管 COVID-19 的临床特征和预后因素已被广泛研究,但针对精神障碍患者的特异性证据仍然匮乏。大多数既往研究聚焦于普通 COVID-19 人群,尚未建立专门针对精神障碍患者的成熟预后模型。此外,传统的统计方法在处理高维和异质性临床数据时效果可能欠佳,限制了预后相关模式的识别。近年来,人工智能和机器学习的进步促进了各种医疗环境下数据驱动预测模型的开发。这些方法能够高效处理复杂数据集,识别潜在的预后信息并提高预测准确性,从而为该脆弱人群的风险分层提供了有前景的策略。虽然逻辑回归、随机森林、支持向量机和神经网络等机器学习方法已广泛用于 COVID-19 患者的疾病预测和风险评估,但大多数研究仍集中于普通人群,专门针对精神障碍患者的研究有限。此外,不同机器学习算法在 COVID-19 预测中的性能差异值得仔细评估,适当的模型选择对于提高预测精度至关重要。本研究利用多中心临床数据,旨在识别与合并精神障碍的 COVID-19 患者死亡相关的因素,并利用多种机器学习算法开发预后模型,以期通过早期识别高风险个体来支持及时干预和更有针对性的临床管理。该研究成果发表于《Frontiers in Cellular and Infection Microbiology》。
**研究方法概述**
研究人员开展了一项回顾性多中心研究,样本队列来源于中国河南省 10 家医院在 2022 年 12 月 5 日至 2023 年 1 月 31 日期间收治的 439 名合并精神障碍且确诊 COVID-19 的住院患者。纳入标准包括年龄≥18 岁、符合中国国家卫生健康委员会发布的第十版诊疗方案确诊病例标准、以及入院前或入院时有明确的精神障碍诊断。排除标准为年龄<18 岁、妊娠或哺乳期妇女以及未合并精神疾病者。数据收集涵盖一般入院资料、合并症、实验室检测结果、治疗相关变量及疫苗接种状态。缺失数据采用链式方程多重插补法(MICE)处理。数据集按 7:3 比例随机划分为训练集(n = 308)和测试集(n = 131),并对训练集进行过采样以解决类别不平衡。研究采用了三种特征选择方法:Boruta、LASSO 和随机森林,以筛选关键基线变量。基于筛选出的变量,构建了八种机器学习算法模型,包括逻辑回归、决策树、随机生存森林(RSF)、k-近邻(KNN)、支持向量机(SVM)、神经网络、XGBoost 和 LightGBM。模型性能通过受试者工作特征曲线下面积(AUC)、一致性指数(C-index)、校准曲线和决策曲线分析(DCA)进行评估。最终利用 SHapley 加法解释(SHAP)对最优模型进行解释,并通过 Kaplan–Meier 分析和 log-rank 检验评估模型在风险分层中的临床效用。
**研究结果**
**基线特征**
研究共纳入 439 名患者,随机分配至训练集和测试集。总体队列年龄偏大,女性占比 63.1%。两组间大多数基线变量具有可比性,仅空腹血糖显示显著差异。常见合并症包括高血压、心脑血管疾病等,部分患者接受了抗病毒治疗、抗生素使用及伴随激素治疗。
**风险预测建模与验证**
研究人员首先利用 LASSO 算法筛选出药物使用、病情严重程度评估、体重指数(BMI)、伴随激素治疗、高血压、慢性呼吸系统疾病、自身免疫性疾病、淋巴细胞计数(Lymph)、血糖(GLU)、高密度脂蛋白(HDL)、低密度脂蛋白(LDL)、天门冬氨酸氨基转移酶(AST)、肌酐(CREA)、胆固醇(CH)、碱性磷酸酶(ALP)和总胆红素(TBIL)等变量。基于这些变量构建的八种机器学习模型中,在训练集中多数模型表现出极高的 AUC 值,但在独立测试集中,采用 LASSO 筛选变量的神经网络模型表现最佳,其 AUC 达到 0.911(95% CI: 0.832–0.990),且校准曲线最接近参考线,决策曲线分析显示其具有最佳的总体临床效用。相比之下,基于 Boruta 和随机森林特征选择方法构建的模型在测试集中的表现均不及 LASSO 结合的神经网络模型。因此,研究人员选定基于 LASSO 筛选变量的神经网络模型作为最终模型。
**预测模型的 SHAP 分析**
通过 SHAP 分析对最终模型的可解释性进行了评估。全局 SHAP 分析显示,伴随激素治疗、标准化后的 ALP 和标准化后的淋巴细胞计数是对模型预测贡献最大的三个特征。蜂群图进一步表明,较高的伴随激素治疗使用情况、较高的 ALP 水平以及较低的淋巴细胞计数与预测死亡风险的增加密切相关。其他变量如 AST、GLU 和 HDL 的贡献相对较小。依赖图、瀑布图和单样本力图进一步阐释了各特征对模型输出的影响方向和幅度。
**高低风险组的 Kaplan-Meier 生存曲线**
基于神经网络模型在训练集中得出的最佳截断值(0.508),将所有参与者分为高风险组和低风险组。Kaplan–Meier 曲线显示,高风险组的累积死亡率随时间显著上升,而低风险组保持在较低水平。两组曲线分离明显,log-rank 检验结果显示差异具有统计学意义(P < 0.0001)。这一结果证实了该神经网络模型在风险分层和预后评估方面的实用价值。
**讨论与结论总结**
本研究在多中心队列中开发并验证了针对合并精神障碍的 COVID-19 患者的死亡风险预测模型。在测试的 24 个模型中,基于 LASSO 筛选变量的神经网络模型在测试集中表现出最佳的预测性能,优于其他机器学习方法和传统统计模型。这一发现突显了人工智能在复杂临床环境中的潜在价值,神经网络可能通过非线性建模捕捉变量间的高阶相互作用。SHAP 分析提高了模型的可解释性,揭示了单个变量对模型输出的贡献,但需谨慎解读,因为这些关联反映的是预测贡献而非因果效应。例如,伴随激素治疗可能反映了入院时的基础疾病严重程度或治疗决策,而非独立的死亡机制决定因素;ALP 升高和淋巴细胞计数降低则是重要的预测标志物。
研究人员指出,尽管数据来自 10 家医院,但所有中心均位于中国河南省,因此该队列可能无法完全代表其他地区或医疗设置的人口学、临床和医疗系统异质性。该模型应被视为区域性开发和内部验证的工具,其在其他人群中的性能和校准度可能存在差异。此外,某些算法在训练集和测试集之间 AUC 值的显著差异提示存在过拟合风险,因此在更广泛的临床应用之前,必须在独立队列中进行外部验证。研究中的精神障碍人群在诊断、严重程度、病程和治疗史方面存在临床异质性,模型并未区分特定精神亚型的潜在不同预后作用。未来研究需要纳入更全面的数据,考察特定精神亚型的风险因素, incorporate 标准化的精神疾病严重程度评估,并在更多样化的人群和医疗环境中评估模型性能。
综上所述,研究人员开发了一种经过内部验证的机器学习模型,用于住院合并精神障碍的 COVID-19 患者的短期死亡风险分层。虽然该模型在该区域多中心队列中显示出令人鼓舞的预测性能,但在常规临床应用之前,仍需在更广泛和更多样化的人群中进行外部验证。