基于异质结构化ICU数据的早期脓毒症(early Sepsis)检测：采用可解释深度学习(Explainable Deep Learning)的方法

《Sensors》：Early Sepsis Detection Using Heterogeneous Structured ICU Data with Explainable Deep Learning

【字体：大中小】 时间：2026年06月09日 来源：Sensors 3.5

编辑推荐：

　　摘要：脓毒症(Sepsis)是由宿主对感染反应失调引起的危及生命的器官功能障碍，在重症监护室(ICU)中对脓毒症进行早期检测对改善预后至关重要。本研究提出一项回顾性比较评估，利用包含生命体征、实验室检测及人口统计学特征的每小时结构化电子健康记录(EHR)变量，

摘要：脓毒症(Sepsis)是由宿主对感染反应失调引起的危及生命的器官功能障碍，在重症监护室(ICU)中对脓毒症进行早期检测对改善预后至关重要。本研究提出一项回顾性比较评估，利用包含生命体征、实验室检测及人口统计学特征的每小时结构化电子健康记录(EHR)变量，预测PhysioNet/Computing in Cardiology 2019挑战赛定义的脓毒症发作前最长6小时的发病情况，评估的架构包括卷积神经网络(Convolutional Neural Network, CNN)、长短期记忆网络(Long Short-Term Memory, LSTM)、门控循环单元(Gated Recurrent Unit, GRU)、双向长短期记忆网络(Bidirectional LSTM, Bi-LSTM)、时序卷积网络(Temporal Convolutional Network, TCN)、Transformer及混合卷积神经网络–视觉Transformer(CNN–Vision Transformer, CNN-ViT)模型。研究人员采用中位数插补(median imputation)和类别加权损失(class-weighted loss)处理缺失值及严重类别不平衡，并使用Shapley加性解释(Shapley Additive exPlanations, SHAP)及注意力(attention)分析作为互补的可解释性手段。在评估模型中，CNN-ViT取得了最强的总体少数类性能，准确率(accuracy)88.25%、召回率(recall)0.7480、F1分数(F1-score)0.454及精确率–召回率曲线下面积(Area Under the Precision–Recall Curve, AUPRC)0.48，虽较其他先进时序及混合架构数值提升有限。留一单元(leave-one-unit-out)评估进一步证明其在内部分布偏移下具相对稳定性能。结果表明结合局部特征提取与基于时序及注意力的建模可改善基于结构化ICU数据的早期脓毒症预测。但本研究属基于公开数据集的回顾性计算基准测试，不构成前瞻性临床验证或真实世界部署评估。

论文解读：基于异质结构化ICU数据的可解释深度学习早期脓毒症检测研究

研究背景与意义

脓毒症(Sepsis)是全球ICU内致病致死的主要诱因，早期识别对其进展至感染性休克及多器官衰竭至关重要。传统临床依赖序贯器官衰竭评分(Sequential Organ Failure Assessment, SOFA)或全身炎症反应综合征(Systemic Inflammatory Response Syndrome, SIRS)标准，难以捕捉生命体征与实验室值的细微时序模式。现有机器学习研究多聚焦单一模型家族或缺乏系统性评估与可解释性分析，且少有在统一实验协议下对比循环、卷积、Transformer及混合架构在多元ICU时序数据上的表现。本研究针对以上缺口，基于PhysioNet/Computing in Cardiology 2019 Challenge数据集，在一致预处理与评估框架下系统对比多种深度学习架构，融合SHAP与注意力机制双通道可解释性分析，探讨局部–全局时序建模对早期脓毒症预测的价值，论文发表于《Sensors》。

主要关键技术方法

研究人员采用PhysioNet/Computing in Cardiology 2019 Challenge脓毒症数据集，含40,336例ICU患者每小时记录的40个结构化预测变量（生命体征、实验室检查、人口学及ICU单元标识），按Sepsis-3启发式标注并前移6 h定义早期预警标签。预处理采用前向填充+训练集中位数插补处理缺失，Z-score标准化，构建固定长度（48 h）滑动窗口序列（50%重叠）。针对约15%正样本的类别不平衡，使用平衡类别加权（约5.7:1惩罚比）的二元交叉熵损失，避免SMOTE对时序生理连续性的破坏。评估架构涵盖1D/2D-CNN、LSTM、GRU、Bi-LSTM、TCN、Transformer及CNN-LSTM与CNN-ViT（将时间–特征矩阵分块嵌入后经Transformer编码器）；CNN-ViT前端用1D卷积提取局部趋势，再划分为4 h非重叠时间块投影为token输入两层多头注意力(multi-head attention)的ViT后端。可解释性集成SHAP值（背景集采样自训练数据）与Transformer层注意力权重聚合分析。评估指标强调召回率、F1-score及AUPRC，辅以准确率；采用分层划分与留一ICU单元交叉验证检验鲁棒性；通过消融实验量化各组件贡献，PCA可视化潜层嵌入分离度。

研究结果

5.1 基线模型与对比模型(Baseline and Comparative Models)

研究人员在相同结构化EHR时序数据下系统对比单模型基线（1D-CNN、2D-CNN、LSTM、GRU、Bi-LSTM、TCN、Transformer）与混合及集成模型，发现混合及Transformer基模型较简单基线略有但稳定改进，各模型性能差异较小，反映早期脓毒症预测难点更多受数据特性（类别不平衡、标签不确定性、ICU异质性）制约而非模型复杂度。

5.2 预测性能(Predictive Performance)

CNN-ViT取得最高F1-score（0.454）与AUPRC（0.48），准确率88.25%、召回率0.7480；Transformer（F1=0.452，AUPRC=0.47）与加权集成（F1=0.453，AUPRC=0.475）次之。CNN-ViT与加权集成准确率差仅0.0020且置信区间重叠，不具统计显著性。表明混合架构提供增量而非决定性优势，评价应侧重少数类指标。

5.3 模型性能统计比较(Statistical Comparison of Model Performance)

Wilcoxon符号秩检验显示CNN-ViT显著优于简单1D/2D-CNN，但与加权集成差异未达一致显著性(p>0.05)，支持混合架构提供稳定但有限改进的结论。

5.4 置信区间分析(Confidence Interval Analysis)

95%置信区间在最强模型间（CNN-ViT、Transformer、TCN、加权集成）大幅重叠，进一步佐证观测增益属渐进式。

5.5 性能差异的统计诠释(Statistical Interpretation of Performance Differences)

因严重类别不平衡，准确性作次要描述指标；核心判据为召回率、F1-score及AUPRC。CNN-ViT、Transformer、TCN、CNN-LSTM、Bi-LSTM及加权集成同属高性能组，差异微小。

5.6 观察与合理性说明(Observations and Rationale)

CNN-LSTM（召回0.7400，F1=0.449，AUPRC=0.46）与CNN-ViT证实局部卷积+序列/全局注意力组合有益；TCN与Transformer捕获长程依赖效果接近混合模型；Bi-LSTM双向语境提升召回至0.7380。加权集成未明显超越最佳单体，提示架构整合优于一味模型融合。高召回伴随精度降低属典型不平衡现象。

5.7 可解释性分析(Interpretability Analysis)

SHAP汇总图显示平均动脉压(Mean Arterial Pressure, MAP)、乳酸(lactate)、心率(Heart Rate, HR)、血氧饱和度(peripheral oxygen saturation, SpO₂)、白细胞计数(White Blood Cell count, WBC)及血糖(glucose)为最主要贡献特征，偏离正常生理范围推高预测风险，符合临床认知。跨模型SHAP排名稳定，CNN偏重密集采样生命体征局部波动，循环/Transformer分配权重更分散至实验室与血流动力学时序演变。

5.7.1 基于注意力的归因结果(Attention-Based Attribution Results)

CNN-ViT归一化注意力权重排序：HR最高，次为MAP、SpO₂、lactate，与公认脓毒症指标吻合，提示模型关注生理性有意义信号。

5.7.2 SHAP–注意力归因比较(SHAP–Attention Attribution Comparison)

HR、MAP、SpO₂、lactate两法均突出；glucose、WBC于SHAP贡献大但注意力有时偏低（因稀疏），Resp与Temp可能获中等注意力但SHAP偏低。二者互补，注意力不恒等于解释，需结合SHAP与临床合理性审视。

5.8 消融实验(Ablation Studies)

移除结构化EHR特征F1降至0.434（Δ=-0.020），去除时序序列F1=0.430（Δ=-0.024，降幅最大），去CNN骨干F1=0.440（Δ=-0.014），去Transformer模块F1=0.442（Δ=-0.012），证实各组件尤其纵向动态建模不可或缺，混合设计协同提升少数类检出。

5.9 跨折与跨单元XAI一致性(XAI Consistency Across Folds and Units)

CNN-ViT的SHAP特征排序Spearman秩相关达0.91±0.03，时间注意力对齐0.88±0.04，高于其余模型，说明决策依据在分布偏移下仍稳定，非单位特异伪影。

5.10 数据与特征可视化(Data and Feature Visualization)

原始特征PCA呈明显重叠，潜层CNN-ViT嵌入显示更清晰类分离但有边界重叠，反映早期脓毒症固有模糊性。训练/验证损失与准确率曲线吻合好，无过拟合迹象。CNN-ViT收敛平滑。混淆矩阵示混合模型与集成较基线减少假阴性(False Negative, FN)；ROC示CNN-ViT具最高AUC，集成略优权衡。F1–推理时间散点表明CNN-ViT兼顾高效与性能。

5.11 留一单元跨站点验证结果(Leave-One-Unit-Out Cross-Site Validation Results)

跨ICU单元留存测试下各模型召回与F1微降，CNN-ViT维持召回0.7480、F1=0.454且降解最小，混合架构对人群/流程异质性强健性更好。

讨论与结论翻译

对比结果表明序列感知与混合模型较简单基线提供适度但一致的早期脓毒症检出增益，CNN-LSTM、CNN-ViT及加权集成获最强召回、F1及AUPRC——此即不平衡临床任务最相关指标。研究局限为回顾性、缺前瞻性床旁验证与外院泛化测试；标签基于回顾Sepsis-3推导存不确定；中位数插补潜在平滑时序骤变。CNN-ViT等混合架构优势源于局部卷积特征提取与全局自注意力联合建模长短时依赖，消融证实各部件协同贡献，XAI一致性佐证决策具生理合理性而非数据伪相关。未来需多中心前瞻验证、校准分析、临床工作流整合及考虑高分辨率波形/非结构化文本拓展数据源。综上，该系统基准表明融合局部特征提取、时序建模与注意力机制的混合可解释深度学习框架可改善基于结构化ICU EHR的早期脓毒症预测性能，虽增益有限且属回顾性评估，其性能、可解释稳定性及跨单元鲁棒性支持此类混合可解释AI作为危重病辅助决策支持研究的有前景方向，但临床自主部署前须完成前瞻验证与校准评估。

热点排行