《Journal of Hazardous Materials Advances》:Plasma proteomic signatures link environmental exposures to lung cancer risk
编辑推荐:
越来越多的证据表明,空气污染、居住区绿地、交通排放和社会经济状况等环境因素可能影响肺癌的发生发展,但这些关联背后的分子相关性尚未完全阐明。蛋白质组学为绘制与环境暴露和肺癌相关的循环蛋白质特征提供了创新方法。这项前瞻性队列研究利用英国生物样本库(UK Bioba
越来越多的证据表明,空气污染、居住区绿地、交通排放和社会经济状况等环境因素可能影响肺癌的发生发展,但这些关联背后的分子相关性尚未完全阐明。蛋白质组学为绘制与环境暴露和肺癌相关的循环蛋白质特征提供了创新方法。这项前瞻性队列研究利用英国生物样本库(UK Biobank)的数据,整合了14种环境暴露与血浆蛋白质组学数据(包含在42,058名参与者中测量的2,923种蛋白质)。研究人员识别了与暴露相关的蛋白质,并分析了其功能通路富集情况。通过最小绝对收缩和选择算子(LASSO)回归生成了蛋白质组学评分。通过Cox回归和反事实中介分析评估了与肺癌风险的关联,并探讨了蛋白质组学评分及特定蛋白质在暴露-疾病通路中的潜在间接关联模式。研究观察到与环境变化相关的循环蛋白质存在显著变异。环境相关蛋白质主要富集于炎症和免疫调节相关通路。这些暴露(PM2.5、PM10、苯、归一化差异植被指数(NDVI)、增强型植被指数(EVI)和汤森剥夺指数(TDI))及其相关蛋白质组学评分显示出与肺癌风险的显著关联。中介分析显示,蛋白质组学评分解释了暴露-癌症关联的很大一部分比例,并且包括血管生成素-2(ANGPT2)、癌胚抗原相关细胞粘附分子5(CEACAM5)和肿瘤坏死因子配体超家族成员13B(TNFSF13B)在内的几种特定蛋白质在多重暴露中均表现出一致的间接关联模式。这项大规模队列研究表明,环境暴露数据与特定的蛋白质组学改变相关,并且这些与暴露相关的蛋白质组学特征与肺癌风险相关。通过绘制通路水平的信号和可能参与这些关联的候选蛋白质,本研究结果为环境暴露与肺癌风险之间的联系提供了假设生成的见解,并为环境致癌作用研究和精准预防策略提供了有价值的参考。
一、 研究背景、问题与目的
肺癌是全球范围内最常诊断的恶性肿瘤,也是癌症相关死亡的主要原因,其全球负担依然居高不下。尽管吸烟是主要风险因素,但越来越多的证据表明,空气污染、城市绿地不足和社会经济状况等其他环境决定因素也与肺癌风险相关。例如,细颗粒物(PM2.5)被归类为1类致癌物,长期暴露一直与较高的肺癌发病率和死亡率相关。同样,居住区绿地减少也与肺癌风险增加相关。这些因素可能与氧化应激、慢性炎症和DNA损伤的扰动有关,而这些机制已被认为在肺癌发生中起作用。然而,将环境暴露与肺癌风险联系起来的生物分子相关性尚未完全阐明,这一知识缺口限制了有效的预防和风险分层策略。
为了填补这一空白,本研究利用英国生物样本库(UK Biobank)这一大型前瞻性队列,系统地描述了与环境暴露相关的血浆蛋白质组学特征,包括空气污染、居住区绿地、交通相关因素和社会经济指标。研究旨在通过评估其与肺癌风险的关联,并利用蛋白质组学评分和特定蛋白质探讨其在暴露-疾病轴中的潜在间接作用,从而为环境相关肺癌风险的生物学通路提供见解,为未来的纵向和实验验证提供风险分层和候选蛋白信息,对精准预防具有潜在意义。
二、 关键技术方法简介
本研究基于英国生物样本库(UK Biank)开展,最终分析样本包含42,058名参与者,中位随访14.9年,期间记录了503例肺癌新发病例。研究整合了14种环境暴露数据(包括PM2.5、PM10、苯、NOx、NDVI、TDI等)和大规模血浆蛋白质组学数据(通过Olink Explore?平台测量2923种蛋白质)。主要分析方法包括:1) 通过多元线性回归识别与每种环境暴露显著相关的蛋白质,并进行功能通路富集分析(利用KEGG和WikiPathways数据库);2) 使用LASSO回归为每种暴露构建一个精简的蛋白质组学评分;3) 应用Cox比例风险回归模型评估环境暴露及其相关蛋白质组学评分与肺癌风险的关联;4) 采用反事实中介分析框架,量化蛋白质组学评分及特定蛋白质在环境暴露与肺癌风险关联中的间接作用比例。研究对年龄、性别、吸烟状况、BMI、饮酒、饮食质量、COPD患病率和癌症家族史等多个协变量进行了全面调整,并进行了多轮敏感性分析以验证结果的稳健性。
三、 研究结果
3.1. 研究人群
研究共纳入42,058名参与者,其中53.9%为女性,平均年龄为56.72岁,92.7%为白种人。基线特征数据显示,与对照组相比,肺癌病例年龄更大、男性比例更高、当前吸烟者比例显著更高、教育水平较低、饮食质量较差、COPD患病率更高。
3.2. 环境暴露的富集分析
线性回归分析发现,在14种环境暴露中,每种暴露与105至1,883种蛋白质显著相关。通路富集分析显示,这些相关蛋白质主要富集于免疫和炎症反应通路,如细胞因子-细胞因子受体相互作用、趋化因子信号传导、肿瘤坏死因子(TNF)信号传导和白介素-17(IL-17)信号传导,以及PI3K-Akt和MAPK等主要细胞信号传导通路。
3.3. 环境暴露相关蛋白质组学特征与肺癌的关联
研究人员利用LASSO回归为每种环境暴露构建了蛋白质组学评分。研究发现,PM2.5、PM10、苯和TDI等环境暴露及其相应的蛋白质组学评分与肺癌风险增加显著相关。相反,NDVI和EVI及其蛋白质组学评分与肺癌风险显著降低相关。例如,PM2.5衍生的蛋白质组学评分与肺癌发病率呈正相关(HR,1.62;95% CI,1.42–1.84),而NDVI衍生的评分呈负相关(HR,0.66;95% CI,0.57–0.76)。亚组分析表明,在吸烟者中,环境暴露及其蛋白质组学评分与肺癌风险的关联更为显著。
3.4. 蛋白质组学评分的中介分析
反事实中介分析用于量化暴露相关的蛋白质组学评分在环境暴露与肺癌风险关联中的间接作用比例。在空气污染物中,蛋白质组学评分分别解释了PM2.5与肺癌关联的36.2%(95% CI: 14.2–58.2%)和苯关联的31.9%(95% CI: 3.3–60.5%)。对于居住区绿地,NDVI和EVI的中介比例分别为31.5%(95% CI: 5.2–57.8%)和29.9%(95% CI: 2.8–57.0%)。TDI的中介比例最高,为57.0%(95% CI: 31.1–83.0%),但由于其作为社会经济剥夺指标的多维性,此结果需谨慎解读。
3.5. 特定蛋白质的中介分析
进一步的分析识别出16至159种与肺癌新发病例显著相关的蛋白质。值得注意的是,如ALPP、CEACAM5和TNFSF13B等蛋白质水平的升高与较高的肺癌风险显著相关。中介分析显示,多种蛋白质在PM2.5、PM10、苯、NDVI、EVI和TDI与肺癌风险的关联中表现出统计学上显著的间接效应。其中,ANGPT2、TNFSF13B和CEACAM5在不同暴露领域中均显示出重复出现的间接效应,表明存在跨暴露领域的共同介质集。CXCL17在TDI与肺癌的关联中被识别为具有间接效应的蛋白质。
3.6. 敏感性分析
各项敏感性分析的结果与主要分析结果基本一致,证实了PM2.5和TDI关联的稳健性。
四、 讨论与结论总结
在讨论部分,研究人员指出,本研究发现与环境暴露相关的蛋白质主要富集于免疫炎症通路和细胞信号通路,这与环境暴露(如PM2.5)可能通过刺激促炎细胞因子释放、激活相关通路促进肿瘤生长和免疫逃逸的机制相符。构建的蛋白质组学评分作为综合性生物标志物,能够捕捉环境暴露的系统性生物学印记,其与肺癌风险的强关联凸显了蛋白质组学在连接环境与疾病内部分子反应中的价值,为风险分层和早期发现提供了框架。亚组分析发现吸烟者中关联更强,提示吸烟可能通过影响氧化应激、DNA修复或免疫微环境等方式,增强环境暴露的致癌效应。中介分析结果表明,蛋白质组学评分在统计上解释了暴露与肺癌关联的相当一部分比例,这应被视为统计分解,而非因果中介的确凿证据。其中TDI的高比例需谨慎解读,因其反映了多维的社会经济因素,存在残留混杂的可能性。研究还识别出多个在暴露-肺癌关联中具有显著统计间接效应的循环蛋白质,如ANGPT2、TNFSF13B、CEACAM5、CDCP1和CXCL17等,它们可能反映了暴露相关的生物学反应、炎症通路节点或潜在的早期疾病过程。然而,像ALPP和CEACAM5这样的蛋白质也是公认的肿瘤标志物,其水平升高可能反映了隐匿或亚临床疾病,而非暴露诱导的因果通路,因此存在反向因果关系的可能,需在未来的纵向研究和实验设计中进一步验证。
研究优势与局限性:本研究的优势在于将多样化的环境暴露评估与大型前瞻性队列中的大规模蛋白质组学数据相结合,并采用了系统的分析框架。然而,也存在一些局限性,包括蛋白质组学数据为单时间点测量、无法完全排除残留混杂、研究人群主要为白人导致外推性受限、中介分析依赖强假设、交通指标基于2009年路网可能引入错误分类,以及对缺失值进行MinDet插补的潜在偏差。
研究结论(Conclusion)翻译:
综上所述,这项大规模队列研究识别了反映环境暴露并与肺癌风险相关的蛋白质组学特征。反事实中介分析进一步表明,与暴露相关的蛋白质组学评分和选定的蛋白质在统计上解释了部分暴露与肺癌的关联。这些发现凸显了将组学数据纳入环境健康研究以识别候选生物标志物和指导精准预防策略的价值。