预测扁桃体切除术后出血(post-tonsillectomy hemorrhage, PTH)的机器学习(machine learning, ML)模型的开发与验证
《European Archives of Oto-Rhino-Laryngology》:Development and validation of a machine learning model predicting post-tonsillectomy hemorrhage
编辑推荐:
目的 开发并验证用于预测扁桃体切除术后出血(post-tonsillectomy hemorrhage, PTH)的机器学习(machine learning, ML)模型。方法 研究人员对2017年1月3日至2025年5月1日挪威扁桃体登记库(Norwegi
目的 开发并验证用于预测扁桃体切除术后出血(post-tonsillectomy hemorrhage, PTH)的机器学习(machine learning, ML)模型。方法 研究人员对2017年1月3日至2025年5月1日挪威扁桃体登记库(Norwegian Tonsil Registry)中的患者队列进行ML分析。通过围手术期评估记录手术类型、手术技巧及止血方式;术后30天问卷评估结局。采用无监督学习探索数据结构,建立有监督模型预测PTH(定义为需再入院的任何术后出血)。纳入预测因子包括年龄、性别、手术类型、手术技巧及止血方式。以受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUC)评估模型性能,最优模型在留出测试集中验证,采用SHAP(SHapley Additive exPlanations)图解释模型,并进行决策曲线分析(Decision Curve Analysis, DCA)评估临床效用。结果 共纳入32 037例患者[均值±标准差(SD)年龄17.84±12.33岁;18 949例(59.15%)女性],PTH发生率为6.17%。无监督学习识别出出血率存在差异的亚组。最佳预测模型为Adaboost分类器,测试集AUC为0.71(95% CI 0.68–0.73)。最重要预测因子为中年或老年年龄、双极电凝(bipolar diathermy)止血及男性性别。DCA显示该预测模型优于替代策略。结论 扁桃体切除术后出血可被中等准确度地预测。尚需进一步研究评估其作为临床决策支持工具的潜在效用。
《European Archives of Oto-Rhino-Laryngology》刊载论文解读:预测扁桃体切除术后出血的机器学习模型开发与验证
一、研究背景与立项依据
扁桃体手术是耳鼻喉科常见操作,术后扁桃体切除术后出血(post-tonsillectomy hemorrhage, PTH)虽发生率较低(文献报道0.8%–3.2%,部分研究>10%),但可危及生命。已知危险因素包括高龄、男性、手术方式(全切vs.部分切除)及电凝止血等,但各因素间存在复杂交互作用,传统回归难以捕捉。既往仅两项小样本研究尝试用机器学习(machine learning, ML)预测PTH。因此,研究人员基于挪威全国扁桃体登记库(Norwegian Tonsil Registry),开展大样本ML建模,旨在识别PTH高危人群,为个体化术前预警、随访分层及降低PTH相关负担提供依据。
二、主要关键技术方法
研究人员基于挪威国家扁桃体登记库(2017-01-03至2025-05-01),筛选返回30天术后问卷且数据完整的32 037例患者。特征含年龄(Min–Max缩放)、性别、手术类型(独热编码)、剥离技术及止血方式(二值化)。结局为问卷自报的需再入院PTH。数据集按7∶1∶2分为训练、验证、测试集。无监督学习采用UMAP(uniform manifold approximation and projection)降维联合HDBSCAN层次密度聚类;有监督学习比较Logistic Regression、SVM、Random Forest、Gradient Boosting、Adaboost、XGBoost、LightGBM等12种算法,类别不平衡用ADASYN或过采样处理,超参数经5折交叉验证贝叶斯搜索优化。主要评价指标为AUC,辅以平衡准确率、F1分数、敏感度、特异度、阳性预测值(PPV)及阴性预测值(NPV);最优Adaboost模型用SHAP解释特征贡献,并以5折交叉验证Sigmoid校准后行决策曲线分析(Decision Curve Analysis, DCA),阈值概率取5%、10%、15%、20%。
三、研究结果
Population characteristics(人群特征)
最终分析32 037例,平均年龄17.84±12.33岁,女59.15%,PTH总体发生率6.17%(n=1 859)。训练、验证、测试集PTH率分别为6.38%、5.68%、5.95%,组间均衡。
Unsupervised learning(无监督学习)
UMAP结合HDBSCAN识别出8个数据驱动簇。成人行传统扁桃体切除术并采用电刀剪(dissection with diathermy scissors)者PTH率高于均值;儿童尤行扁桃体部分切除术(tonsillotomy/adenotonsillotomy)者PTH率低于均值,提示不同术式-年龄组合存在异质性出血风险。
Predictive model performance(预测模型性能)
最优模型为采用ADASYN重采样的Adaboost分类器,测试集AUC=0.71(95% CI 0.68–0.73),平衡准确率0.66(95% CI 0.64–0.68),敏感度0.77,NPV 0.90,但特异度及PPV偏低(PPV=0.10)。表明模型较擅长排除不会出血者,但对出血阳性预测能力有限。
Model explainability(模型可解释性)
SHAP汇总图及递归特征消除显示最重要的17个特征依次为:年龄(高龄促PTH)、双极电凝止血(bipolar diathermy for hemostasis,促PTH)、男性性别、腺样体扁桃体部分切除术(adenotonsillotomy)、冷器械剥离(cold steel dissection)、肾上腺素浸润、其他热切割(other warm dissection)、扁桃体部分切除术(tonsillotomy)、射频止血、初次/再次手术、双极电凝剥离、其他热止血、无需额外止血、缝线/结扎止血、出院前已出血、射频剥离、脓肿性扁桃体切除术(quinsy tonsillectomy,负向关联)。年轻、部分切除术及冷器械操作为PTH保护因素。
四、讨论与结论总结
讨论指出本模型AUC(0.71)略低于另两项含合并症/凝血指标的小样本研究(AUC 0.78–0.81),提示加入更多临床变量可能提升性能;但本研究样本量大、仅用术中/人口学变量即达中等预测力,且DCA显示在阈值概率5%–10%时净受益(net benefit)优于"全员干预"或"单用双极电凝止血为指征干预"。高敏感度(0.77)与高NPV(0.90)使其适于风险排除,低PPV限制了对阳性者的干预决策。局限性含问卷自报结局可能存在应答偏倚致PTH率高估、未区分原发/继发PTH、仅内部验证等,需外部队列进一步检验。
Conclusion(结论原文翻译)
本研究报道了迄今最大规模的PTH预测模型,获中等预测性能(AUC 0.71)。决策曲线分析提示其仅有有限临床获益。尚需更多研究以提高模型性能并评估其临床实用性。