基于SHAP的可解释机器学习解析老龄化高风险亚洲地区鼻咽癌异质性疾病负担

《Cancer Epidemiology》:Explainable machine learning with SHAP decodes the heterogeneous burden of nasopharyngeal carcinoma in high-risk aging Asia

【字体: 时间:2026年04月08日 来源:Cancer Epidemiology 2.3

编辑推荐:

  背景:鼻咽癌(Nasopharyngeal Carcinoma,NPC)是全球关注的公共卫生问题,在东亚、东南亚及高收入亚太地区呈现高发态势,且老年人群负担尤为突出。然而,上述高风险亚区域间长期流行病学轨迹的差异尚未被量化。方法:研究人员基于2023年全球疾病

  
背景:鼻咽癌(Nasopharyngeal Carcinoma,NPC)是全球关注的公共卫生问题,在东亚、东南亚及高收入亚太地区呈现高发态势,且老年人群负担尤为突出。然而,上述高风险亚区域间长期流行病学轨迹的差异尚未被量化。方法:研究人员基于2023年全球疾病负担(Global Burden of Disease,GBD)数据,分析了1990–2023年上述地区≥55岁成人NPC负担(发病率、死亡率、患病率、伤残调整寿命年)。采用趋势分析、可解释机器学习(随机森林结合SHAP)及负二项回归识别并量化关键可改变风险因素,构建综合风险指数,并预测至2050年的未来趋势。结果:NPC负担呈现显著分化趋势:高收入亚太地区上升,东亚地区下降,东南亚地区稳定。可解释机器学习识别出一组核心可改变风险因素簇(红肉/加工肉类及钠摄入过高、吸烟、高酒精使用),其与疾病负担显著相关。综合风险指数的地理分布模式与最高负担区域高度吻合。疾病呈显著男性优势且随年龄增长而增加。预测显示上述分化轨迹将持续。结论:老龄化亚洲地区NPC的异质性负担由可改变风险因素簇驱动,并受区域医疗差距调节。研究结果提示需制定精准公共卫生策略:东南亚应加强一级预防与早期诊断,东亚应巩固治疗成效,高收入亚太地区需发展生存者照护体系。
该研究针对鼻咽癌在高发亚洲老年人群中日益凸显的疾病负担差异展开深入探讨。鼻咽癌作为一种具有显著地域聚集性的头颈部恶性肿瘤,其发病率在全球范围内分布极不均衡,尤其集中于东亚、东南亚及高收入亚太地区,且随着年龄增长风险急剧攀升,中老年群体成为最主要受累人群。尽管爱泼斯坦-巴尔病毒(Epstein-Barr Virus,EBV)感染已被确认为该地区鼻咽癌的关键致病因素,但全球疾病负担(Global Burden of Disease,GBD)框架侧重于可改变的行为、环境与代谢风险因素评估。当前,传统流行病学方法难以捕捉多种风险因素间复杂的非线性交互作用,亦无法阐明这些因素如何共同塑造疾病的地理异质性,导致针对性的一级预防策略制定受限。此外,人口老龄化虽未改变部分高发区的年龄标化发病率,却持续推高了绝对疾病负担。因此,解码这一异质性背后的驱动机制,对于制定精准有效的公共卫生干预措施至关重要。研究人员旨在通过引入基于SHAP的可解释机器学习框架,结合流行病学验证的两阶段分析策略,量化并解释老龄化高风险亚洲地区鼻咽癌负担的时空演变规律及其驱动因素。
作者依托GBD 2023数据库,提取了1990年至2023年间东亚、东南亚及高收入亚太地区20个国家/地区≥55岁人群的鼻咽癌疾病负担指标(患病率、发病率、死亡率及伤残调整寿命年(Disability Adjusted Life-Year,DALY))及68项潜在可改变风险因素的暴露数据。关键技术方法包括:首先,通过趋势分析和连接点回归(Joinpoint Regression)量化疾病负担的时间变化趋势及拐点;其次,构建基于SHAP(SHapley Additive exPlanations)的随机森林模型,对筛选出的10项候选风险因素进行无偏筛选与重要性排序,并利用袋外(Out-of-Bag,OOB)R2评估模型性能;随后,采用负二项回归(Negative Binomial Regression)对机器学习识别出的关键因素进行流行病学验证,量化其与患病率的相对风险(Relative Risk,RR)及人群归因分值(Population Attributable Fraction,PAF);最后,基于上述结果构建综合风险指数,并利用自回归积分滑动平均模型(Autoregressive Integrated Moving Average,ARIMA)预测2024–2050年的疾病负担趋势。
研究结果部分,研究人员首先进行了区域层面的疾病负担分析。结果显示,1990–2023年间,三个高风险区域的鼻咽癌负担轨迹显著分化。高收入亚太地区发病率(年度变化百分比(Estimated Annual Percentage Change,EAPC)=2.10,95%置信区间(Confidence Interval,CI):1.75–2.44)与患病率(EAPC=2.32,95% CI:1.94–2.69)均呈上升趋势,2023年新发病例达7011例。东亚地区则表现出显著改善,发病率(EAPC=-2.23,95% CI:-2.64至-1.81)、死亡率(EAPC=-4.16,95% CI:-4.47至-3.84)及DALY率大幅下降,但2023年仍承载最高的绝对负担,新发病例达13514例。东南亚地区呈小幅改善,发病率(EAPC=-0.34,95% CI:-0.43至-0.26)与死亡率轻微下降。在国家层面,中国拥有最高的患病人数(245603例)与新发病例数(46928例),而新加坡则拥有最高的发病率(54.78/10万)与患病率(343.18/10万)。
在基于机器学习的危险因素识别与综合风险评估部分,随机森林模型的SHAP分析将职业甲醛暴露列为首位(平均绝对SHAP值3.609),其次为高钠摄入(2.400)、高红肉摄入(2.094)等。随后的负二项回归验证了红肉摄入过高(RR=1.45)、吸烟(RR=1.32)、加工肉类摄入过高(RR=1.32)、钠摄入过高(RR=1.30)及酒精使用过高(RR=1.23)是显著的正向危险因素。基于此构建的综合风险指数显示,最高风险区集中分布于东亚与东南亚,与核心高负担区高度重合。
关于性别与年龄组模式,鼻咽癌负担在所有区域均呈现显著的男性优势,且随年龄增长呈明显的递增趋势,在最高龄组达到峰值。趋势分析揭示了区域特异性模式:高收入亚太地区的老年男性负担显著增加;东南亚多数年龄组负担下降;东亚则在大部分年龄组中实现了死亡率与DALY率的显著降低。
指标与社会人口指数(Socio-Demographic Index,SDI)的相关性分析表明,患病率(r=0.565,p<0.001)和发病率(r=0.358,p<0.01)与SDI呈显著正相关,而死亡率(r=0.04,p=0.302)和DALY率(r=0.035,p=0.367)则无显著关联。连接点回归分析进一步揭示,烟草负担与区域发展呈反比,东亚的DALY率与死亡率下降最快,而东南亚的职业致癌物相关死亡率自2018年起显著上升(APC=1.12%)。预测结果显示,至2050年,高收入亚太地区负担将持续恶化,东亚将显著下降,而东南亚将保持稳定。
在讨论部分,研究人员指出这种分化轨迹反映了社会经济与卫生系统能力的断层。高收入亚太地区面临从生存向生活质量优化的转型挑战;东亚的下降得益于治疗进展;东南亚的稳定则掩盖了晚期诊断与资源限制的结构性问题。研究创新性地结合了SHAP可解释机器学习与传统回归,证实了饮食与行为风险因素的核心作用。值得注意的是,职业甲醛暴露虽被机器学习列为首要因素,但其生态水平的负向关联(RR=0.80)并非否定其致癌性,而是反映了“患病率=发病率×平均生存期”的公式效应及医疗资源差异导致的生态谬误。此外,研究强调了鼻咽癌管理的性别与年龄特异性,女性在特定年龄段具有生存优势,而老年患者面临更高的特定死亡风险,需个体化处理。
结论部分重申,老龄化亚洲地区鼻咽癌负担呈现三种分化轨迹,由可改变风险因素簇驱动并与医疗差距相互作用。有效控制需采取精准公共卫生策略:东南亚加强一级预防与早期诊断,东亚巩固治疗成果,高收入亚太发展生存者综合照护体系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号