机器学习（Machine Learning）方法在预测肺癌易感性及识别肺癌发病风险影响因素中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers》：Application of Machine Learning Methods for Predicting Susceptibility to Lung Cancer and Identifying Predictors Influencing the Risk of Lung Cancer Development

【字体：大中小】 时间：2026年06月09日 来源：Computers 4.2

编辑推荐：

　　肺癌仍是导致癌症相关死亡的主要原因之一。治疗效果直接取决于早期诊断和准确的疾病进展预测。本研究聚焦于经典机器学习算法——包括逻辑回归（Logistic Regression, LR）、支持向量机（Support Vector Machine, SVM）、随机森

肺癌仍是导致癌症相关死亡的主要原因之一。治疗效果直接取决于早期诊断和准确的疾病进展预测。本研究聚焦于经典机器学习算法——包括逻辑回归（Logistic Regression, LR）、支持向量机（Support Vector Machine, SVM）、随机森林（Random Forest, RF）和极端梯度提升（eXtreme Gradient Boosting, XGBoost）——在基于问卷的肺癌风险评估中的应用。研究人员开展了六种机器学习算法预测肺癌的比较研究，这些算法均基于调查数据进行训练。根据受试者工作特征曲线下面积（Receiver Operating Characteristic–Area Under the Curve, ROC-AUC）指标，随机森林模型取得了最优结果。在正类的F1分数（F1-score）和精确率（Precision）方面，支持向量机表现出最高效率。然而，梯度提升在关键临床指标上提供了最均衡的结果。SHAP（SHapley Additive exPlanations）分析识别出三个可能与本样本中肺癌风险相关的初步预测因子：就诊肺科医生、不明原因体重下降和食欲减退。这些初步结果与临床观察一致，并提示了集成机器学习方法在医学诊断中的潜在可解释性，尽管仍需在更大规模数据集上进行验证。总体而言，初步结果表明基于问卷数据使用机器学习方法进行肺癌筛查具有潜力，特别是在训练样本扩大的情况下。本研究讨论了早期肺癌诊断的潜在应用，并指出该领域的进一步研究将与计算机断层扫描（Computed Tomography, CT）图像识别相结合开展。

**研究背景与问题提出**

肺癌作为全球范围内癌症死亡的首要原因，其早期诊断对提高患者生存率具有至关重要的意义。根据世界卫生组织2022年全球癌症统计数据，全球约有250万新发肺癌病例和180万死亡记录，五年生存率不超过25%，主要原因在于疾病发现过晚。尽管深度学习在CT影像分析中展现出自动化诊断的潜力，但其应用受限于对昂贵设备、专业影像判读人员以及大规模标注数据集的需求。与此同时，基于临床问卷数据的筛查模型因其成本低、可及性高、易于在基层医疗中推广等优势，在临床前筛查阶段具有不可替代的价值。然而，现有研究多集中于CT影像分析，基于问卷数据的肺癌风险预测模型研究明显不足，尤其缺乏将多种机器学习算法与SHAP可解释性分析相结合的系统研究。此外，医疗数据普遍存在的类别不平衡问题（患病案例远少于健康人群）严重制约了模型的实际诊断效能。在此背景下，本研究旨在开发并比较六种机器学习模型用于基于临床问卷的肺癌风险预测，并利用SHAP分析进行特征解释与阈值优化，以填补该领域的研究空白。

**研究设计与核心结论**

本研究基于哈萨克斯坦共和国卫生部2022年7月1日第164号协议《肺癌临床方案》构建了包含21个特征的问卷调查表，共收集219名受访者的数据，剔除3条目标变量缺失记录后，最终样本为216例观测。数据集呈现显著的类别不平衡特征：肺癌阴性组208例（96.3%），阳性组仅8例（3.7%）。数据预处理阶段，"每日吸烟包数"因缺失率高达71.3%被剔除；"吸烟持续时间"的6个缺失值采用中位数插补，随后进行z-score标准化处理。为避免数据泄露，研究采用分层五折交叉验证，并将预处理与SMOTE（Synthetic Minority Over-sampling Technique）过采样严格限定于训练集。测试集包含2例肺癌患者和42例非患者，完全独立于训练过程。

六种机器学习算法被用于二元分类任务：逻辑回归（基线模型）、RBF核支持向量机、K近邻算法（k=5）、最大深度为5的决策树、100棵树的随机森林，以及XGBoost梯度提升算法。模型评估采用六项指标，其中召回率（Recall）和F1-score为优先考量，因漏诊（假阴性）的临床后果远重于误诊（假阳性）。

交叉验证结果显示，由于每折训练集仅含4-5例阳性样本，所有模型的F1-score均值均不超过0.181，多数拆分中模型完全无法检出阳性病例。这一结果印证了数据量不足而非算法选择是核心限制因素。独立测试集评估揭示：随机森林与KNN的ROC-AUC达0.976，但标准阈值下召回率为0；SVM在精确率1.000时F1-score为0.667，是唯一无假阳性的模型；KNN召回率达1.000但伴随6例假阳性。阈值优化后，随机森林在0.30阈值处取得F1-score=0.800、召回率=1.000，XGBoost在0.15阈值处F1-score提升至0.500。PR-AUC分析进一步证实KNN（0.667）与SVM（0.611）的阳性类检测能力显著优于随机基线（0.045）。

特征重要性分析与SHAP（SHapley Additive exPlanations）可解释性分析一致识别出三个核心预测因子：就诊肺科医生、不明原因体重下降和食欲减退。这些特征属于肿瘤恶病质-厌食综合征（cachexia-anorexia syndrome）的临床表现，与既往临床研究高度吻合。SHAP摘要图显示，上述特征的存在（高值，红色）显著提升癌症预测概率，而其缺失（低值，蓝色）则降低概率。 waterfall图个案分析表明，对于一个具体阳性患者，体重下降（+0.08）、咳嗽（+0.05）和食欲减退（+0.05）提升癌症概率，而无肺科医生随访（?0.14）和较短吸烟史（?0.11）起到抑制作用。

**主要技术方法概述**

本研究采用的关键技术方法包括：（1）基于标准化临床协议构建结构化问卷数据采集系统；（2）分层随机划分训练集（80%，n=172）与测试集（20%，n=44），保持类别比例；（3）构建包含中位数插补、z-score标准化和SMOTE过采样（k=3）的预处理流水线，严格隔离测试数据；（4）六种机器学习算法的对比实验：逻辑回归、RBF核支持向量机、K近邻、决策树、随机森林与XGBoost；（5）分层五折交叉验证评估模型稳健性；（6）阈值优化探索以适配严重类别不平衡场景；（7）双算法特征重要性分析（随机森林的基尼指数平均减少量与XGBoost的目标函数增益）；（8）基于TreeExplainer的SHAP全局与局部可解释性分析，包括特征重要性图、摘要图和瀑布图。

**研究结果的详细展开**

**数据预处理与类别平衡策略**：研究人员针对医疗数据的高缺失率和类别不平衡问题，设计了严格的预处理流程。对于缺失率过高的"每日吸烟包数"直接剔除，对其余缺失采用抗离群的中位数插补。SMOTE技术被应用于训练集以生成少数类合成样本，但受限于仅6例原始阳性样本，k值被迫降至3，合成样本多样性受限。

**模型性能比较与阈值优化**：标准阈值下，随机森林和XGBoost虽具高ROC-AUC（分别为0.976和0.893），但完全漏检阳性病例，揭示标准0.5阈值在严重不平衡数据中的不适用性。阈值优化后，随机森林表现最优（F1-score=0.800），XGBoost亦有改善（F1-score=0.500）。SVM在无假阳性前提下保持较高F1-score，显示出对小样本的良好适应性。KNN实现完全召回但以牺牲特异性为代价。PR-AUC作为更适配不平衡场景的评价指标，为模型选择提供了补充依据。

**核心预测因子识别**：三种独立方法（随机森林/XGBoost特征重要性、SHAP分析、患者组间均值差异比较）高度一致地确认了三个关键预测因子：就诊肺科医生、不明原因体重下降和食欲减退。这些发现与肿瘤学中恶病质-厌食综合征的临床认知相符，增强了结果的可信度。

**系统架构设计与临床验证**：研究提出了包含调查模块、数据存储模块、数据处理模块和决策模块的系统架构，并报告了4例临床应用案例。其中患者A经问卷高分筛查后，CT证实为右上肺叶IA2期（T1bN0M0）肺癌并接受手术治疗；患者B、C、D虽获高风险评分但CT未证实恶性肿瘤，这反映了高敏感性筛查工具在类别不平衡数据中的预期行为特征。

**讨论与结论翻译**

本研究的讨论部分围绕以下核心议题展开：首先，早期诊断的社会与临床价值被再次强调，肺癌高死亡率与早期发现改善预后的关联构成了研究动机；其次，研究方法论的正确性得到确认，包括严格的数据分割、流水线内SMOTE应用及独立测试集评估；第三，不同算法的性能差异被深入分析，SVM在小样本场景下的优势、集成方法的高排序能力与阈值敏感性、以及评价指标选择的临床意涵均得到充分论述；第四，SMOTE在极小样本条件下的局限性被指出，6例原始阳性样本严重制约了合成数据的质量与多样性；第五，三个核心预测因子的临床相关性得到验证，其与肿瘤恶病质-厌食综合征的关联符合现有医学认知；最后，研究局限性被坦诚披露，包括极端稀 personalizar样本量（阳性n=8）、测试集仅2例阳性、问卷数据缺乏临床确证、SMOTE质量受限、无外部验证以及缺失影像学和实验室指标等。

研究结论部分翻译如下："本研究的目标在于识别肺癌易感性及最显著影响肺癌发病风险的因素。研究输入数据来源于肺癌诊断预备问卷协议。通过该早期诊断方案开展调查，获得了建模输入数据。建模结果显示了肺癌易感性的百分比。本研究对六种机器学习算法基于问卷数据预测肺癌进行了比较分析。根据ROC-AUC指标，随机森林算法表现最优（0.976）。在正类F1-score和精确率方面，支持向量机（SVM）领先（F1=0.667，Precision=1.000）。同时，梯度提升在临床显著指标上展现出最均衡的质量。利用SHAP分析，识别出三个可能与本样本中肺癌风险相关的初步预测因子：就诊肺科医生、不明原因体重下降和食欲减退。这些初步发现与临床实践一致，并提示了集成机器学习模型在医学诊断任务中的可解释性潜力，尽管仍需在更大规模、经临床验证的数据集上进行验证。所获得的初步结果表明，基于问卷数据使用机器学习方法进行肺癌筛查具有潜力，特别是在训练样本量增加并进行外部临床验证的情况下。"

联系信箱：

粤ICP备09063491号

热点排行