将梯度提升算法与患者相似性相结合：一种用于预测重症监护病房（ICU）住院时间的混合式、可解释框架

《Machine Learning with Applications》：Synergizing gradient boosting and patient similarity: A hybrid interpretable framework for ICU length-of-stay prediction

【字体：大中小】 时间：2026年04月29日 来源：Machine Learning with Applications 4.9

编辑推荐：

　　穆罕默德·坦哈伊伊朗伊兰大学工程学院 **摘要** 准确预测重症监护室（ICU）患者的住院时间（LOS）对于资源规划至关重要，但这通常需要在预测性能和可解释性之间做出权衡。我们提出了“梯度提升患者相似性”（GB-PS）这一混合框架，该框架利用基于XGBoost的全

　　穆罕默德·坦哈伊
伊朗伊兰大学工程学院

**摘要**
准确预测重症监护室（ICU）患者的住院时间（LOS）对于资源规划至关重要，但这通常需要在预测性能和可解释性之间做出权衡。我们提出了“梯度提升患者相似性”（GB-PS）这一混合框架，该框架利用基于XGBoost的全局特征重要性来指导基于协方差的k-最近邻回归器进行ICU住院时间预测。通过使用MIMIC-IV数据库中10,000例成人ICU住院患者的回顾性数据，我们将GB-PS与纯XGBoost基线模型进行了比较。结果显示，GB-PS的平均绝对误差（MAE）为1.65天（均方根误差RMSE为2.79，R2为0.60），而纯XGBoost的MAE为2.02天（RMSE为2.78，R2为0.65）。因此，这种混合模型在减少患者级别的绝对误差的同时，解释的整体方差略低。由于ICU床位规划通常受日级别预测误差的影响，我们将MAE作为主要评估指标，并将较低的R2视为一种权衡，而非矛盾。 subgroup分析表明，该模型在老年患者和高危患者中的表现稳定。GB-PS提供的可解释性是基于实例的：预测结果可以追溯到临床相似的历史病例，而无需依赖完全明确的全局规则集。总体而言，GB-PS提供了一种实用的混合方法，能够在保持临床可解释性的同时适度提高预测性能。

**1. 引言**
估计重症监护室中危重患者的住院时间不仅仅是一个数值任务。它在床位管理、临床工作流程、人员负荷平衡方面具有重要意义，最重要的是，它有助于提前决策资源分配。准确的住院时间预测可以改善资源受限环境下的患者流动情况，并缓解后续急诊科和外科病房的拥堵问题。然而，这一任务的难度在于ICU的生理状况具有高度非线性和不稳定性：生化指标的微小变化或早期器官功能障碍都可能导致截然不同的临床结果。

过去，ICU住院时间建模一直在两种方法论之间摇摆。一方面，传统的统计模型（如线性回归和基于生存分析的方法）提供了更清晰的见解，但灵活性较低，因为它们依赖于在异质ICU人群中往往不成立的假设；另一方面，随着电子健康记录规模的扩大和细节的增多，研究人员越来越倾向于使用机器学习模型（如随机森林、梯度提升树和深度神经网络）来解决这一问题（Alghatani等人，2021；Alsinglawi等人，2023；Mao等人，2021）。实际上，这些模型几乎总是优于线性模型，尤其是在像MIMIC-IV这样的数据集上（Johnson等人，2023），该数据集结合了生命体征、实验室检查和干预程序的多种类型信息。然而，尽管这些模型具有出色的预测能力，但它们仍然大多难以理解。医生通常倾向于基于类比的推理方法：通过将患者与其他具有相似症状的患者进行比较来理解他们的病情。基于患者相似性的方法（最常通过k-NN或患者相似性网络实现）紧密反映了这种认知框架（Gliozzo等人，2022；Lee等人，2020；Sharafoddini等人，2017）。然而，这些方法的性能会随着维度增加而急剧下降，标准距离度量也无法区分临床显著的偏差和噪声。文献中始终存在一个持续的争论：“临床医生信任的透明模型与利益相关者依赖的高性能模型”。

受到这种权衡的启发，我们考虑是否可以将现代机器学习的预测能力与基于相似性的临床推理逻辑结合起来。这种框架的需求可以总结如下：
- **学术需求**：当前的ICU住院时间研究通常只优化预测性能或可解释性，而相对较少探索临床可用混合模型的设计空间。
- **临床和运营需求**：医院需要足够准确的住院时间预测，以便进行床位规划和出院协调，同时这些预测也必须足够透明，以便临床医生和管理人员审核和信任。
- **社会效益**：更可靠和可解释的住院时间预测可以支持更早的护理协调，减少不必要的ICU拥堵，并提高等待入院患者的重症监护床位可用性。
- **经济效益**：即使日级别预测误差略有减少，也可能改善人员配置、床位分配和下游资源利用，这在资源受限的医疗系统中尤为重要。

基于这些背景，梯度提升患者相似性（GB-PS）的主要贡献不是引入全新的学习范式，而是将两种成熟的概念——非线性表示学习和基于实例的推理——结合起来。具体来说，XGBoost用于提取全局特征信息，这些信息随后用于指导基于协方差的相似性度量，进而指导k-NN回归器进行预测。通过这种方式，模型首先识别出全局重要的预后结构，然后参照相似的历史患者进行预测。我们在MIMIC-IV数据库的10,000个ICU住院病例的分层样本上评估了这种混合策略，不仅考察了整体预测性能，还评估了子组的稳健性、校准行为、观察到的性能差异的统计可靠性以及在资源受限环境中的计算实用性（Alsinglawi等人，2023；R?hr等人，2024；Sabathiel等人，2023）。总之，我们的目标是表明预测性能和基于实例的可解释性不必被视为相互对立的目标，即使在一个维度上的改进并不意味着在所有性能指标上都具有普遍优势。

**表1. 重要性声明**

**摘要**
(1) 问题或议题
ICU住院时间的准确预测面临一个权衡：高性能的机器学习模型（如XGBoost）是“黑箱”，缺乏透明度；而可解释的统计模型在应用于复杂临床数据时往往预测能力较低。
(2) 已知情况
梯度提升集成模型是性能基准的主要贡献者，但透明度较低。另一方面，基于患者相似性的方法（如k-NN）与临床推理较为契合，但在识别非线性特征交互和高维复杂性方面存在困难。
(3) 本文的贡献
我们提出了梯度提升患者相似性（GB-PS）这一混合框架，其中XGBoost衍生的特征重要性用于指导基于协方差的加权k-NN回归器。与纯XGBoost基线相比，该方法平均绝对误差降低了1.65天（2.02天），同时保持了基于实例的局部可解释性和临床可解释的推理路径。
(4) 目标受益者
需要可靠、可解释决策支持的临床医生；负责床位管理的医院管理人员；以及希望在标准硬件上实现高性能AI的资源有限环境中的医疗系统。

**表2. MIMIC-IV数据集上的代表性ICU住院时间预测及相关结果预测研究**
性能指标按原始出版物报告。?Rocheteau等人报告的平均绝对偏差在此被视为近似MAE。

**2. 相关研究**
ICU住院时间模型与电子健康记录的不同阶段密切相关，其历史可追溯到仅有单一机构的小型数据集的时代。这些研究主要使用广义线性模型和Cox型生存分析，选择性地关注少数患者群体。这些研究能够提供可解释的系数，但未能捕捉到ICU住院时间变量中的非线性和交互效应。随着大规模ICU重症监护数据集的出现（如MIMIC-IV），方法论挑战也随之增加，这促使方法论前沿从传统技术转向更复杂的机器学习架构。最新研究通常将基准模型与基于XGBoost的梯度提升树集成方法进行比较。Hempel等人构建了一个利用MIMIC-IV第一天数据的XGBoost模型，观察到的MAE在2到3天之间（Hempel等人，2023）；相反，Alsinglawi等人结合了集成树和特征选择来预测总体医院住院时间（Alsinglawi等人，2023）。使用这些技术的研究侧重于识别长期住院或区分短期住院作为独立的预测目标；例如，Leuchter等人（2025）的SHoP模型和基于ML的长期住院模型（Alghatani等人，2021；Mao等人，2021）。医疗保健领域之外的研究也强化了基于混合提升架构的更广泛方法论价值。例如，Blali等人提出了HFXL-Model，这是一种结合梯度提升集成和前馈神经网络的混合框架，用于异构物联网流量中的二元入侵检测（Blali等人，2025）。尽管该研究针对的是不同的应用领域，但在方法论层面具有相关性：它表明，在特征交互复杂且异质的情况下，基于提升的混合化可以提高模型的鲁棒性。我们的研究在目标和部署逻辑上有所不同，因为我们针对连续的临床结果，并通过患者相似性保持基于实例的可解释性，而不是将提升技术与纯黑盒下游学习器结合。

在深度学习领域，许多研究人员尝试了各种新方法来充分利用ICU数据的时间结构潜力。Rocheteau等人（2021）引入的TPC网络和Chen等人（2023）的深度学习框架能够处理生命体征和实验室结果的多变量时间序列；最近的研究则使用多模态患者相似性嵌入进行早期住院时间预测（Vandenberghe等人，2022）。Zhang和Kuo巧妙地将历史数据与药物信息结合，用于早期识别长期住院（Zhang & Kuo，2024）；Peruka和Huang在预印本论文中专注于为住院时间预测工程化时间和生理特征（Peruka & Huang，2025）。Rohr等人系统地使用现代基准和精确评估重新审视了MIMIC-IV的结果预测（R?hr等人，2024）。基于图的范式和状态空间模型是最新的工具，用于描绘患者与临床变量之间的复杂关系。Tariq等人展示了基于图的融合建模以预测疾病进展（Tariq等人，2022）；Boll等人利用基于电子健康记录的患者相似性图谱预测心力衰竭风险（Boll等人，2024）。仅讨论ICU住院时间时，S2G-Net是一种结合状态空间和图模型的方法，用于MIMIC-IV住院时间预测（Zi等人，2025）。从表示学习的角度来看，这些结构化表示方法非常吸引人，但作者警告说它们会增加计算和解释复杂性。同时，对于大多数医院IT基础设施来说，执行和更新这些模型仍然是一个挑战，尤其是在资源受限的环境中。

患者相似性学习一直是医学信息学的重要组成部分。Gottlieb等人回顾了基于健康数据的患者相似性方法（Sharafoddini等人，2017）；Lee等人提出了基于患者相似性的诊断模型（Lee等人，2020）。最近的一些工作包括用于ICU应用的深度动态患者相似性（Sun等人，2022）和多模态相似性嵌入用于早期住院时间预测（Vandenberghe等人，2022）。Gliozzo等人广泛调查了各种异构数据整合方法用于患者相似性网络（Gliozzo等人，2022）。更广泛地说，GB-PS框架与之前的监督度量学习和基于特征的最近邻方法相关，其中距离函数根据结果相关的特征信息进行调整，而不是平等对待所有维度（Weinberger和Saul，2009；Xing等人，2002）。我们的贡献是将这一通用理念应用于ICU住院时长（LOS）的预测，并将其与基于XGBoost的特征增益结合在一个基于案例的框架中，该框架在操作上简单且在临床上易于解释。尽管大多数研究都集中在预测死亡率上，但可解释的机器学习在ICU结果预测中的受欢迎程度也在上升。Huang等人开发了一个用于预测脓毒症引起的凝血病28天死亡率的可解释模型（Huang等人，2024年），Britsch等人报告了一个用于预测48小时死亡率的动态可解释模型（Britsch等人，2025年），并且使用MIMIC-IV为免疫功能低下的ICU患者群体和CAUTI相关死亡率提出了可解释模型（Liu等人，2025年；Yu等人，2025年）。Sabathiel等人（2023年）分析了围绕MIMIC-IV LOS预测和基线算法的公平性考虑。与那些仅依赖黑盒深度学习或基于树的模型，或仅依赖基于相似性的方法的研究不同，我们的框架将这些范式以一种实际可部署的形式结合起来。如表2所总结的，提出的Hybrid XGBoost-kNN模型在高容量架构和直接的患者相似性技术之间取得了平衡：它在保持基于实例的结构的同时，实现了有竞争力的预测性能，这种结构更便于在床边解释和常规部署。

3. 方法
3.1. 研究设计和队列选择
我们从MIMIC-IV中进行了一项回顾性队列研究，该数据记录了2008年至2019年间Beth Israel Deaconess Medical Center的匿名ICU入院情况（Johnson等人，2023年）。研究人群包括成人患者（年龄≥18岁），他们的ICU住院记录足够详细，以便提取预先指定的预测因子和结果。住院时间少于6小时的病例被排除在外，因为这些类型的住院通常表示围手术期监测或简短检查，而不是真正的重症监护事件。对于有多次ICU住院的患者，我们只保留数据库中的第一次住院记录，以避免同一人的结果相互关联。之后，我们检查了预测因子关键数据的完整性，并删除了缺失超过40%的记录。从最终的数据集中，我们抽取了10,000个ICU住院记录的分层随机样本，这些样本是根据LOS四分位数划分的，以确保对短期和长期住院都有足够的代表性。我们选择这个样本大小是为了平衡计算可行性、短期和长期ICU住院的代表性以及在保留的测试集上稳定估计比较性能。

3.2. 结果定义
主要结果是ICU住院时长，直接从入院和出院时间戳计算得出：(1) LOS = ICU出院时间 - ICU入院时间 / 24小时。LOS被视为一个连续变量，测量单位为天。由于ICU LOS分布通常是右偏的，在探索性模型开发过程中，我们还考虑了其对数转换版本log-LOS = ln(LOS + 1)。然而，本文中的所有主要分析和报告结果都基于原始（未转换）的尺度，以保持直接的临床可解释性。

3.3. 预测变量
候选预测因子最初是通过临床判断和先前的研究证据确定的，并且决定它们应该在ICU住院后的前24小时内就可以获得。最终的特征集包括：
- 人口统计学特征：入院时的年龄；生物学性别。
- 基线疾病负担：Charlson合并症指数，这是一个衡量累积慢性疾病的指标。
- 急性严重程度：在前24小时内计算的SOFA评分。
- 入院情况：入院类型（紧急 vs. 选择性），以及服务类型（医疗 vs. 外科）。
- 实验室指标（前24小时）：白细胞计数、肌酐、血尿素氮（BUN）、乳酸、钠、钾和血红蛋白。
- 早期干预：使用血管加压药和机械通气的二元指标，以及在前24小时内给予的不同药物的数量。

在训练数据分割中，通过互信息测量变量之间的共享信息，SOFA和乳酸被确定为对LOS最有信息量的变量，这与它们作为器官功能障碍和组织灌注不足的间接指标的使用是一致的。

3.4. 数据预处理
预处理遵循了一个旨在尊重临床合理性的流程，同时为下游建模准备数据：
- 异常值处理：我们对连续变量进行了第1百分位和第99百分位的 winsorization处理，以减少极端值的影响。这些极端值很可能是测量或记录中的错误，同时我们尝试保留真实的临床极端值。
- 缺失数据：在建模流程中嵌入了均值插补。在内部交叉验证期间，仅使用每个折叠的训练部分估计插补参数，然后应用于相应的验证部分。模型选择后，插补步骤在整个训练分割上重新拟合，然后应用于保留的测试集。缺失超过20%的连续预测因子被排除。
- 规范化：所有用作预测因子的连续变量都通过z分数标准化进行了标准化，z = (x - μσ)，其中μ和σ仅基于训练数据估计。这一步骤是为了确保模型中的基于距离的部分不会因为单位或测量尺度的不同而成为主要贡献因素。
- 分类变量编码：分类变量（例如，入院类型、服务类型、性别）通过one-hot编码进行转换，每个特征丢弃一个类别以避免共线性。

为了避免信息泄露，所有预处理决策，包括μ、σ、插补统计量和协方差矩阵的估计，都仅使用每个阶段可用的分析/训练数据。因此，在内部交叉验证期间，这些量在每个训练折叠内重新估计，并仅应用于相应的验证折叠，而在最终评估时，它们在整个训练分割上重新拟合，然后应用于保留的测试集。

下载：下载高分辨率图像（359KB）
下载：下载全尺寸图像
图1. Gradient-Boosted Patient Similarity (GB-PS) 框架的示意图。该设计包括两个主要部分：(1) XGBoost编码器捕获复杂的特征交互并得出重要性权重(w)；(2) k-NN回归器使用这些权重在一个考虑协方差的距离度量(Dw)中识别临床相似的患者并预测住院时长。

3.5. 主要模型：混合梯度提升k-NN (GB-PS)
为了有效捕捉重症监护单元(ICU)数据的非线性复杂性以及患者相似性的直观概念，我们设计了一个两阶段的混合架构，称为Gradient-Boosted Patient Similarity (GB-PS)。该系统如图1所示，结合了梯度提升的强大表示学习能力和基于实例学习的易于理解的性质。

3.5.1. 第1阶段：通过XGBoost进行表示学习
在第一阶段，我们在训练队列上训练了一个梯度提升决策树(XGBoost)回归器。与通常使用该模型进行最终预测的典型方法不同，我们在这一步的主要目标是发现临床数据的潜在流形。梯度提升有效地处理了非线性交互（例如，年龄和乳酸的指数风险），这是线性距离度量无法捕捉的。从这个拟合的集成中，我们得到了全局特征重要性向量w = (w1, …, wp)，其中wj表示与特征j相关的总增益。这些权重用于衡量每个临床变量的预后重要性。

3.5.2. 第2阶段：加权相似性推断
在第二阶段，应用了一个k-最近邻(k-NN)回归器，该回归器使用了一个考虑协方差的加权距离度量，该度量受到第1阶段的指导。我们使用的不是标准的欧几里得距离（其中每个特征的贡献相同），而是一个考虑协方差的加权距离函数，这意味着该度量同时考虑了特征特定的预后相关性和预测因子之间的相关性结构。对于两个患者x和y，混合距离Dw定义为：(2) Dw(x, y) = ∑j=1 pwj(xj - yj)2 + (x - y)?V?1(x - y)，其中wj表示特征j的XGBoost派生的重要性权重，V是从标准化训练预测因子估计出的协方差矩阵，在邻居搜索之前。协方差矩阵是在原始标准化特征空间中估计的，在特征加权后没有重新估计。在这种公式中，加权欧几里得项强调了临床预测维度，而Mahalanobis项考虑了特征之间的相关性和冗余。因此，将这两个项相加允许相似性搜索在单个距离函数中同时反映预后相关性和协方差结构。在距离计算之前，特征重要性权重被标准化，使得∑j=1 pwj=1，这减少了权重项主导协方差调整项的风险。我们通过内部交叉验证确定了k=7，该验证仅限于训练分割，如下所述。由加权邻居得出的LOS估计y?(x)是这些优化邻居的平均值：(3) y?(x) = 1/k ∑i∈Nk(xi)yi。这种架构允许模型像高级ML模型一样“思考”（通过权重理解复杂的风险因素），但像临床医生一样“表达”（通过相似的患者历史解释预测）。

3.6. 算法总结和复杂性分析
为了清晰起见，GB-PS流程可以总结为以下步骤：
- 第1步：通过winsorization处理异常值、插补缺失值、标准化连续变量和对分类变量进行one-hot编码来预处理训练数据。
- 第2步：从预处理的训练预测因子中估计协方差矩阵V。
- 第3步：在训练队列上训练一个XGBoost回归器并提取特征重要性向量w。
- 第4步：标准化w并定义方程(2)中的混合距离度量。
- 第5步：对于每个新患者，计算其与训练集中所有参考患者的混合距离。
- 第6步：检索k个最近的邻居，并将LOS预测为这些邻居的平均值。

设n表示训练样本的数量，p表示编码后的预测因子数量，T表示提升树的数量，k表示邻域大小。预处理阶段需要O(np)时间进行特征转换，而协方差估计需要O(np2)时间和O(p2)空间；协方差矩阵的求逆需要O(p3)时间。在标准的贪婪树构建下，XGBoost阶段的训练复杂度约为O(Tnplogn)。因此，GB-PS的总体训练时间复杂度可以表示为O(np2 + p3 + Tnplogn)。在推理时，该方法存储预处理的参考队列，并计算新患者与所有n个存储案例的混合距离。在直接的密集实现中，这大约需要O(np2)时间进行每次查询，因为二次形式的Mahalanobis项，然后需要O(nlogk)时间来识别k个最近的邻居。因此，每个患者的推理复杂度为O(np2 + nlogk)，内存需求为O(np + p2 + |fXGB|)，其中|fXGB|表示拟合的提升树集的大小。这种复杂性配置适用于中等规模的表格ICU队列，特别是当需要基于实例的可解释性并且参考队列可以保留在内存中时。相比之下，对于更大的数据库或低延迟的实时设置，可能需要近似最近邻索引、降维或简化的协方差结构。详细的伪代码在附录中提供。

3.7. 对比模型和基线模型
为了评估GB-PS的性能，我们考虑了几个额外的模型：
- 一个使用相同特征的纯XGBoost模型，通过随机搜索（500种配置）进行训练和调整，以输出一个强大的黑盒基线，这与之前关于MIMIC-IV LOS的研究一致（Hempel等人，2023年；Zhang和Kuo，2024年）。
- 一个使用相同特征集的线性回归模型，用于表示一个经典的、全局线性的基线模型。
- 一个使用标准欧几里得距离对z分数化特征进行编码的vanilla k-NN回归器，作为一个纯粹的几何患者相似性模型，不使用基于提升的加权或协方差调整。

通过这些基线，我们可以将模型的非线性贡献（XGBoost）与基于相似性的推理（k-NN）分开，并展示它们在GB-PS框架中的组合附加值。最终调整的XGBoost编码器、编码特征维度和随机种子控制的详细实现设置在附录A.1中报告。

3.8. 评估协议
数据集根据LOS四分位数进行分层抽样，分为训练（80%）和测试（20%）子集，从而在两个部分中保持短期和长期住院的分布。保留的测试集仅用于最终评估。所有预处理步骤、模型拟合、超参数调整和邻域大小选择仅在训练分割内进行。为了清晰起见，验证协议包括在训练数据内的内部交叉验证程序，而不是重复使用外部测试集。XGBoost超参数通过500种候选配置的5折交叉验证在训练分割上进行调整。使用相同的训练分割和相同的折叠分配，我们从候选集{3, 5, 7, 9, 11}中通过最小化交叉验证的MAE选择了k-NN阶段的邻域大小k。在这个意义上，模型选择是在训练数据内嵌套的，而外部测试集在最终评估之前保持不变。因此，预处理流程中提到的任何验证都指的是训练数据集内的内部交叉验证，而不是单独的外部验证队列。平均绝对误差（MAE）、均方根误差（RMSE）和决定系数（R2）是主要的性能指标。我们预先指定MAE作为主要指标，因为它量化了每个患者的典型预测误差（以天为单位），这对ICU床位管理和出院计划直接相关。因此，GB-PS的较低R2是与MAE一起解释的，而不是替代MAE。为了量化不确定性并提供模型之间的正式统计比较，我们用配对的非参数分析补充了描述性性能指标。首先，我们对保留的测试集进行了1000次重复的非参数自助重采样，并重新计算了每次重复的MAE、RMSE和R2。我们使用基于百分位的95%置信区间总结了MAE差异ΔMAE=MAEGB-PS?MAEXGBoost的自助分布。其次，由于GB-PS和纯XGBoost是在相同的保留患者上评估的，我们使用双侧Wilcoxon符号秩检验比较了配对绝对误差。统计显著性在双侧α=0.05的水平上进行了评估。这种选择遵循了一般建议，即当正态性假设不确定时，算法比较应依赖于配对和不受分布限制的程序（Dem?ar，2006）。由于本研究是在单一外部数据集上评估模型，而不是在多个基准数据集上评估的，因此我们没有应用Friedman/Nemenyi多数据集程序。所有预处理参数、特征重要性权重和协方差估计都是在训练数据集上学习的，然后直接应用于测试数据集，无需重新估计。

4. 结果
4.1. 队列特征
经过所有排除后，最终的研究队列包括10,000名ICU入院患者。平均入院年龄为62.1岁（标准差15.0岁），因此该队列大致代表了混合成人ICU患者群体。性别分布在整个患者群体中相当均衡。ICU平均住院时间为3.9天（四分位数范围2.1–6.7天），大多数住院时间较短，只有少数患者住院时间极长（见图2）。病情更严重的患者（即SOFA评分>5）的住院时间明显更长，平均住院时间为5.1天，这与多器官功能障碍导致ICU住院时间延长的预期一致。

4.2. 整体预测性能
表3总结了GB-PS和纯XGBoost在保留测试集上的比较性能。GB-PS的MAE较低（1.65天 vs 2.02天），而RMSE几乎相同（2.79天 vs 2.78天），R2略低（0.60 vs 0.65）。这种模式表明，混合模型在减少典型患者级绝对误差的同时，解释的总方差略有减少。从操作角度来看，MAE被视为主要指标，因为它直接对应于个别患者的预期预测误差（以天为单位），这是ICU床位规划和出院协调最可操作的尺度。因此，我们并不认为GB-PS在所有方面都均匀优于纯XGBoost，而是认为它在平均绝对误差方面有所降低，但解释的方差略有减少。

4.3. 敏感性分析和特征重要性
我们评估了GB-PS对相似性阶段中k值选择的敏感性。如图3（左侧面板）所示，性能在适度的k值范围内相对稳定。非常小的邻域（例如k=3）会增加方差并使极端误差更频繁，而较大的k值会使预测过于平滑，使模型更像全局平滑器。k=7提供了MAE和RMSE之间最佳的平衡。

4.4. 子组性能和公平性
子组分析表明，GB-PS的性能改进不仅限于某一患者群体。对于老年患者（年龄≥65岁），GB-PS的MAE为1.91天，而纯XGBoost为2.15天。对于病情严重的患者（SOFA评分>5），GB-PS的MAE为1.68天，这表明即使在临床复杂的情况下，该模型仍然强大且稳定。公平性分析在本研究中是探索性的，仅限于性别和年龄两个维度。在这两个分层中，我们没有观察到较大的系统性能差异：两种模型之间的MAE差异小于0.1天，且年龄分层后的误差分布显示出最大的变异性，但没有明显的低估或高估现象。

4.5. 经济影响
从操作角度来看，即使ICU住院时间（LOS）预测的改进幅度不大，但如果这些改进转化为更好的出院协调和床位分配，也可能在单位层面产生累积效应。在我们的测试集中，MAE从2.02天（纯XGBoost）降低到1.65天，相当于每位患者平均节省了0.37天的时间。这一数字应谨慎解读：它不是床位天数节省的直接估计，而是说明了提高日级准确性的潜在操作相关性。在中型ICU中，这样的改进可能会在多次入院中累积起来，尽管实际收益取决于预测如何融入工作流程和决策制定。

5. 讨论
本研究探讨了通过结合互补的建模范式是否可以缓解ICU住院时间预测中长期存在的预测性能与可解释性之间的权衡。在GB-PS中，XGBoost不是作为k-NN的竞争替代方案使用的，而是作为一种识别对预测最重要的临床维度的机制。这些学习到的重要性权重用于定义一个相似性空间，在这个空间中，基于邻居的推理在临床上有意义且在统计上更高效。在本申请中，我们优先选择了MAE（平均绝对误差），因为它直接映射到对ICU床位规划至关重要的日级误差幅度，而R2则提供了更全面的拟合总结。因此，结果表明在平均每位患者的准确性方面有所提高，而不是在所有指标上都表现出普遍的优越性。据此，目前的发现应被解释为在所选的评估设计下特定指标的优势，而不是混合架构普遍优越性的证明。

其次，将基于XGBoost的特征重要性纳入距离度量标准，显著改变了哪些患者被视为临床相似的患者。在一个简单的k-NN模型中，即使两个标准化特征的预后相关性差异很大，它们也可能对距离贡献相同。而在GB-PS中，像SOFA和乳酸这样的临床信息变量会受到更大的影响，同时Mahalanobis成分还考虑了预测因子之间的相关性和冗余性。因此，所得到的邻居既受到预测相关性的影响，也受到协方差结构的影响。

第三，亚组分析和校准分析表明，MAE的改进并非仅仅是通过将预测值向均值聚合实现的。GB-PS在住院时间（LOS）范围内保持了合理的性能，并且在老年人和重症患者中显示出特别的好处，这些群体中操作上有用的预测尤为重要。同时，较低的R2值表明，混合方法应该被视为一种实用的折中方案，而不是完全替代基于树的建模方法（Britsch等人，2025年；Huang等人，2024年；Liu等人，2025年；Yu等人，2025年）。

5.2. 临床和操作意义

总体而言，临床团队可能不会信任一个无法质疑的高风险情况的预测。GB-PS提供了一个自然的解释界面：系统可以显示导致预测住院时间的特定邻居以及用于相似性匹配的关键特征。临床医生可以查看这些例子，并决定它们是否是合理的临床类似情况。如果邻居不合适——例如，它们的并发症模式非常不同——那么这可能会导致重新评估输入数据或模型的适用性。从实际角度来看，当住院时间预测模型能够集成到现有工作流程中且不会带来太大的技术开销时，它们最为有用。一些深度学习和基于图的方法依赖于GPU、较大的内存需求或专门的软件堆栈，这在IT资源有限的医院中可能会造成障碍。相比之下，GB-PS依赖于梯度提升树和k-NN，因此相对轻量级，同时仍能实现与文献中报道的更复杂架构相当的性能（Chen等人，2023年；Rocheteau等人，2021年；Zi等人，2025年）。从实现角度来看，GB-PS可以与一个流程兼容，在该流程中，常规收集的ICU数据首先经过预处理，然后由第一阶段编码器转换，再传递给基于例子的相似性推理层。这种模块化结构使得检查每个阶段的性能以及审查预处理决策（例如，插补策略或异常值处理）对下游预测的影响变得更加容易。

5.3. 计算考虑和部署

关于计算复杂性，第3.6节中的正式分析显示，训练GB-PS主要受协方差估计/反演和第一阶段XGBoost拟合的影响，而推理则主要依赖于对存储的参考队列的邻居搜索。对于n个训练案例、p个编码特征和T棵提升树，近似训练时间复杂度为O(np^2 + p^3 + Tnplogn)，而在直接密集实现中的每位患者推理时间为O(np^2 + nlogk)。内存需求为O(np + p^2 + |fXGB|)，这反映了预处理队列、协方差矩阵和拟合集成模型的存储需求。这种配置对于中等规模的表格化ICU队列和基于CPU的部署是可行的，这与本研究的预期医院分析环境相匹配。然而，对于规模更大的数据集或低延迟部署场景，可能需要近似最近邻搜索、降维或简化的协方差结构来保持较低的推理时间。这与一些深度学习和基于图的方法形成对比，后者可能需要更专业的计算基础设施（Boll等人，2024年；Tariq等人，2022年）。

5.4. 限制

权衡这些发现，也存在一些限制。该研究完全依赖于MIMIC-IV数据集，这是一个来自高资源三级护理环境的单中心数据集。尽管该数据库非常受欢迎且患者构成多样（Johnson等人，2023年），但在不同病例组合、护理流程或资源限制的ICU上训练的模型可能无法真正泛化。因此，对独立队列进行外部验证是一个合理的后续步骤。第二个限制是关于极端住院时间值的表示。尽管混合模型在尾部比仅使用XGBoost时校准效果更好，但极长的住院时间仍然难以预测。部分原因是这些住院时间是由罕见的并发症和独特的护理路径引起的，这些在数据的前24小时内并未完全捕捉到。一方面，增加更多时间信息（如每天的器官支持模式）可能会提高这一范围内的性能；另一方面，这将需要更复杂的建模，可能涉及动态相似性概念（Sun等人，2022年；Vandenberghe等人，2022年）。第三，特征重要性向量w代表的是在原始特征空间上训练的单一XGBoost实例的特征。不同的方法，如学习完全转换的潜在表示或使用多个编码器，可能会揭示更深层次的结构。然而，这样的变化也会使模型变得更加复杂，从而可能降低GB-PS在部署方面的吸引力。另一个限制是关于可解释性的评估。尽管GB-PS通过展示类似的历史病例提供了基于例子的局部可解释性，但我们没有进行正式的用户中心化可解释性评估，例如临床医生的反馈、信任校准、认知负荷测量或与护理点的替代解释方法（如SHAP）的比较。因此，本研究中的可解释性声明应被视为方法论和基于例子的，而不是实际证明的人类因素优势。

5.5. 未来方向

这里提出的混合概念有多种扩展潜力。一个自然的扩展是允许相似性度量标准随着时间的推移而变化，因为随着收集到更多关于患者ICU住院期的数据。在最初阶段进行的预测可能主要基于基线和第一天的变量，而在后期阶段进行的预测则可以利用通气参数、血管加压剂剂量或感染标志物的趋势。另一个有前景的成功途径是以模块化的方式将GB-PS与基于图的表示结合使用。例如，GNN可以帮助生成更抽象的患者轨迹嵌入，这些嵌入随后可以作为类似性引擎的输入（Boll等人，2024年；Zi等人，2025年）。主要难点在于保持对原始临床变量的解释指示，从而防止完全透明的潜在空间。最后但同样重要的是，当前模型可以修改为适用于不同的重症监护结果，而不仅仅是住院时间，因为在这些情况下，精确性和可解释性都至关重要。这些结果可能包括再入院风险、长时间机械通气或出院目的地等。每个案例的核心点都超出了模型的性能本身；更重要的是如何使模型的输出与临床推理保持一致。

6. 结论

本研究提出了一个基于梯度提升的患者相似性（GB-PS）框架，用于ICU住院时间预测，该框架结合了梯度提升表示学习和基于案例的推理。通过使用基于XGBoost的特征重要性来指导一个考虑协方差的相似性度量，并将最终预测委托给在该空间内运行的k-NN模型，GB-PS在10,000例住院期的MIMIC-IV数据集上实现了1.65天的平均绝对误差（MAE）和0.60的R2值。GB-PS并没有消除性能和可解释性之间的权衡，而是部分缓解了这种权衡。与纯XGBoost基线相比，该方法减少了平均绝对误差，同时解释的方差略有下降，且配对的统计分析支持了这种MAE优势的稳健性。其可解释性是局部的和基于例子的，因为预测可以追溯到类似的历史患者，而不是完全透明的全局决策规则。总体而言，这些发现表明混合架构可以为ICU住院时间预测提供一个实用的中途解决方案。然而，在做出强有力的部署声明之前，仍需要外部验证、更广泛的公平性分析和正式的以临床医生为中心的可解释性评估。

热点排行