慢性阻塞性肺疾病患者吞咽困难可解释机器学习模型的开发与验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《International Journal of Chronic Obstructive Pulmonary Disease》：Development and Validation of an Explainable Machine Learning Model for Identification of Dysphagia in Patients with COPD

【字体：大中小】 时间：2026年06月18日 来源：International Journal of Chronic Obstructive Pulmonary Disease 3.1

编辑推荐：

　　目的：吞咽困难是慢性阻塞性肺疾病（COPD）患者常见但常被忽视的并发症，由于异常呼吸模式、气道保护受损和全身衰弱，患者易于发生。这不仅使他们易患吸入性肺炎，而且是COPD急性加重（AECOPD）的关键诱因，显著增加不良结局风险。早期识别吞咽困难对于改善COPD

目的：吞咽困难是慢性阻塞性肺疾病（COPD）患者常见但常被忽视的并发症，由于异常呼吸模式、气道保护受损和全身衰弱，患者易于发生。这不仅使他们易患吸入性肺炎，而且是COPD急性加重（AECOPD）的关键诱因，显著增加不良结局风险。早期识别吞咽困难对于改善COPD预后至关重要。然而，关于早期检测的研究有限，特别是在机器学习预测方面。本研究旨在开发并验证一种基于机器学习的COPD吞咽困难风险评估模型，并将其部署为易于使用的网络临床工具，以帮助临床医生进行风险识别和早期干预。患者与方法：回顾性分析了2025年2月至2026年1月期间收治的710例COPD患者的病历。采用饮水试验（Water-Swallowing Test, WST）评估吞咽功能。单变量和多变量逻辑回归确定了独立风险因素，并用于开发和比较八种机器学习模型。模型性能通过受试者工作特征曲线（ROC）、校准曲线和决策曲线分析（DCA）进行评估，并采用Bootstrap内部验证。通过Shapley加法解释（SHAP）解释关键变量，最终模型在线部署。结果：吞咽困难患病率为29.3%。多变量回归确定了五个关键风险因素：病程、体重指数（BMI）、气管插管史、肌力和改良英国医学研究委员会（mMRC）呼吸困难评分。在八种机器学习模型中，XGBoost模型在训练集中表现最佳（AUC 0.921，95% CI 0.901–0.940），且显示出良好的校准能力和最高的临床净收益。该模型已在线部署（https://dysphagiamodel.shinyapps.io/COPD-DP/）。结论：研究人员成功开发并验证了一种基于机器学习的COPD吞咽困难风险评估在线工具，该工具在风险分层和临床决策方面表现出区分度、校准能力和临床实用性。

### 论文解读：基于可解释机器学习模型的COPD患者吞咽困难识别与验证

#### 研究背景、问题与目的

慢性阻塞性肺疾病（COPD）是一种以持续性气流受限为主要特征的呼吸系统疾病，全球死亡率居高不下，已成为第三大死因。在中国，COPD负担尤为沉重，每年约100万人死亡，约500万人因该病致残。吞咽困难是COPD患者常见但常被忽视的并发症，稳定期患病率约33%，急性加重期超过50%。其核心机制在于呼吸与吞咽协调障碍，尤其是吞咽触发于吸气相时，显著增加误吸风险，进而导致吸入性肺炎、反复急性加重、计划外再入院及院内死亡率升高。此外，慢性吞咽困难常伴随摄食减少，加重营养不良和骨骼肌萎缩，削弱呼吸肌功能。然而，临床上吞咽功能障碍症状常被更突出的呼吸困难所掩盖，导致识别延迟。目前吞咽功能主要依赖床边功能测试（如饮水试验），这些方法依赖于医护人员临床经验，只能进行住院即时评估，无法提供早期检测或持续监测。因此，亟需有效的早期识别策略。预测模型通过整合多种临床特征可提供风险评估，但现有研究多采用逻辑回归或列线图，在处理非线性关系和变量交互作用方面存在局限。近年来，机器学习（ML）技术在医学预测模型中应用增加，能够从多维临床数据中识别隐藏模式，但针对COPD患者吞咽困难风险识别的研究仍有限，且现有模型多侧重性能比较而非实际临床应用。为此，本研究基于真实世界临床数据，旨在：①识别COPD患者吞咽困难的潜在预测变量；②比较多种ML模型的预测性能；③选择最适合临床的模型并结合可解释性方法识别关键风险特征；④开发并验证在线风险预测工具，以辅助医护人员准确识别和管理吞咽困难风险。

#### 主要关键技术方法

本研究为单中心回顾性队列研究，样本来自金华市中心医院呼吸科（2025年2月至2026年1月），最终纳入710例COPD患者。吞咽功能采用饮水试验（WST）评估（1级为正常，2-5级为吞咽困难）。通过单变量逻辑回归筛选候选变量（P<0.1），再基于赤池信息准则（AIC）进行多变量逐步前进逻辑回归，最终保留五个独立预测因子：病程、体重指数（BMI）、气管插管史、肌力（通过徒手肌力测试MMT评估）和改良英国医学研究委员会（mMRC）呼吸困难评分。以此为基础构建并比较八种机器学习算法：逻辑回归（LR）、K近邻（KNN）、决策树（DT）、随机森林（RF）、极限梯度提升（XGBoost）、轻量梯度提升机（LightGBM）、支持向量机（SVM）和神经网络（NN）。模型性能通过受试者工作特征曲线下面积（AUC）、校准曲线和决策曲线分析（DCA）评估，采用Bootstrap重采样（1000次）进行内部验证。使用Shapley加法解释（SHAP）进行模型可解释性分析。最终将最优模型部署为基于Shiny的网络应用（https://dysphagiamodel.shinyapps.io/COPD-DP/）。

#### 研究结果

**患者特征**：共710例COPD患者纳入分析，吞咽困难患病率为29.3%（208例），未出现严重类别不平衡（<20%）。

**特征选择**：单变量逻辑回归筛选出17个变量（P<0.1）进入多变量分析。多变量逐步前进回归（基于AIC）最终保留五个预测因子：病程（OR=1.032，95% CI: 1.013–1.051，P=0.001）、BMI（OR=0.919，95% CI: 0.872–0.968，P=0.002，保护因素）、气管插管史（OR=2.164，95% CI: 1.336–3.506，P=0.002）、肌力分级（未达统计学显著性但被保留）和mMRC评分（mMRC 3级与吞咽困难关联最强：OR=2.553，95% CI: 1.277–5.105，P=0.008）。Spearman相关分析显示变量间相关系数均<0.7，无显著共线性问题。

**模型性能**：在训练集中，XGBoost模型表现最佳，AUC为0.921（95% CI: 0.901–0.940），敏感度0.851，阳性预测值0.639，阴性预测值0.928，准确率0.815。随机森林（AUC=0.888）和LightGBM（AUC=0.861）也表现良好。Bootstrap内部验证（1000次）后，逻辑回归验证AUC最高（0.684），XGBoost为0.664，但差异较小（Δ=0.02）。校准曲线显示XGBoost、LightGBM、决策树和神经网络模型校准良好，曲线接近理想对角线。决策曲线分析表明，XGBoost在大部分阈值概率范围内获得最高净收益。综合AUC、校准性能和临床净收益，XGBoost被选为最终模型。

**模型可解释性**：基于平均绝对SHAP值，特征重要性排序为：BMI、病程、mMRC评分、气管插管史、肌力。其中病程、mMRC评分和气管插管史与吞咽功能障碍正相关（值越高或“存在”时，SHAP值正向贡献越大），而BMI为负相关（低BMI增加风险）。

**动态计算器开发**：基于五个关键变量，利用Shiny开发了在线预测平台，用户输入相应临床特征即可获得个体化吞咽困难风险概率及分层建议。

#### 总结讨论

本研究成功开发了一种可解释的机器学习模型用于评估COPD患者吞咽功能，并创建了便于临床使用的在线计算器。该模型能够识别高危患者，显著提高吞咽困难早期筛查效率。与传统风险评估方法相比，它整合了多个临床相关预测因子，并通过可解释算法揭示关键影响因素，凸显其创新性。该模型的临床应用可帮助医护人员实施早期干预，降低误吸和营养不良风险，为COPD患者的个体化护理和临床决策提供重要支持。研究结论：研究人员成功开发并验证了一种基于机器学习的COPD吞咽困难风险评估在线工具，该工具在风险分层和临床决策方面表现出区分度、校准能力和临床实用性。本研究丰富了COPD患者吞咽困难风险评估的工具箱，为未来研究和临床实践提供了有价值的参考。

联系信箱：

粤ICP备09063491号

热点排行