通过基于医学数据的机器学习技术进行精确的职业铅暴露评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Environmental Pollution》：Precision occupational lead exposure assessment through medical-informed machine learning

【字体：大中小】 时间：2026年03月29日 来源：Environmental Pollution 7.3

编辑推荐：

　　精准评估职业铅暴露仍是全球公共卫生挑战，现有方法存在单生物标志物依赖、多因素交互捕捉不足及算法偏见等问题。本研究开发首个融合铅ADME毒代动力学路径的ACO-RF模型，通过双层级优化系统，将特征维度从79降至19（血铅）和16（尿铅），同时实现AUC-ROC高达0.9646和0.9319的预测性能，并显著提升亚临床暴露诊断灵敏度至84.1%。该模型为职业铅暴露早期风险分层提供了可解释性强、可推广的机器学习框架。

陆新豪|卢杰|赵园|韩雷|朱宝莉|王博深

东南大学网络科学与工程学院，中国南京211189

摘要

对职业性铅暴露的精确评估仍然是一个重大的全球公共卫生挑战，因为现有的评估方法过度依赖单一生物标志物，无法充分捕捉复杂的多因素相互作用，并且由于类别不平衡导致算法偏差。为了解决这些问题，本研究开发了一种新型的基于医学先验的ACO-RF模型，该模型采用双层优化系统，以铅的吸收-分布-代谢-排泄（ADME）毒代动力学途径为基础。作为首个针对这一领域的ACO-RF框架，它将铅的ADME途径编码到算法设计中，不同于以往以工程为中心的变体。在中国江苏省21家企业中的2867名铅暴露工人组成的多中心队列上进行验证时，ACO-RF将血液铅（BL）预测的特征维度从79个减少到19个，尿液铅（UL）预测的特征维度从79个减少到16个，同时实现了0.9646的AUC-ROC值（对于BL）和0.9319的AUC-ROC值（对于UL）的优异预测性能。关键的是，优化后的特征子集与铅的毒代动力学机制高度一致，确保了强大的生物学可解释性，并且该模型将异常BL样本的召回率从0.409显著提高到了0.841，大大减少了亚临床暴露的漏诊率。这项工作为早期铅暴露风险分层提供了一个稳健且可解释的工具，并为环境和职业健康研究建立了一个通用的、基于知识的机器学习框架。

引言

职业性铅暴露是一个持续的全球公共卫生威胁，也是环境健康的核心问题。根据国际癌症研究机构的分类，铅属于1类人类神经毒素，即使是在低暴露水平下，也会导致不可逆的认知损伤、慢性肾衰竭和进行性的血液系统损害（Jomova等人，2025年；Grandjean和Landrigan，2006年）。在中国江苏省的一个基于人群的职业队列中，铅暴露工人的血液铅（BL）异常率在不同行业范围内为26.8%至29.2%（Han等人，2018年）。根据2024年全国职业健康新闻发布会的数据，全国有超过一百万中国工人面临职业性铅暴露（NHCC & CDC，2024年），生物监测数据显示高暴露组的亚临床损伤率为27%，主要影响造血系统、肝脏系统和肾脏系统（NHCC & CDC，2024年；Hua等人，2025年）。

全球范围内，国际劳工组织估计每年有180万工人暴露于职业性铅危害中，铅相关健康损失的全球经济负担达到6.0万亿美元（ILO，2023年；Larsen和Sánchez，2023年）。在职业环境中，铅暴露主要通过吸入铅烟雾和粉尘（占总吸收量的70-80%）以及皮肤接触含铅表面发生（WHO，2021年）。

在中国，2024年全国职业健康监测数据显示，只有62.3%的铅暴露企业符合国家标准GBZ 2.1-2019中规定的铅烟雾职业暴露限值0.05 mg/m3，电池制造、汽车零部件焊接和电镀行业被认为是高风险领域。核心监测指标包括可吸入铅烟雾和可吸入铅粉尘，这些指标直接量化了暴露强度（GBZ 2.1-2019；NHCC & CDC，2024年）。

现有文献中已经很好地描述了铅的毒代动力学特性。超过95%的吸收铅与红细胞中的

-氨基乙酰丙酸脱氢酶（ALAD）和含硫蛋白结合，血液半衰期约为35天，并在暴露后30天内重新分布到大脑、肝脏和肾脏等关键器官（Yu等人，2026年）。在稳态条件下，大约66%的铅通过尿液途径排出，尽管这一比例会随着暴露时间和肾功能的改变而变化：急性短期暴露后这一比例降至40-50%，而在慢性暴露期间由于骨骼中铅的逐渐释放而略有增加（Tempowski，2021年；WHO，2021年）。这种动力学特征使得血液铅（BL）成为最近30-90天暴露的金标准生物标志物，而尿液铅（UL）成为长期6-12个月体内累积负担的主要标志物（Tempowski，2021年；WHO，2021年）。异常的BL水平与急性血液系统损害直接相关（?ivan?evi?等人，2024年），而升高的UL水平与慢性周围神经病变和肾功能损害相关（Thomson和Parry，2006年）。重要的是，即使是低水平的铅暴露也会引起不可逆的神经毒性：血液铅水平低于

的儿童平均智商下降5-7分（Bozalan等人，2019年），而成人职业性铅暴露是帕金森病的已知风险因素（Caudle，2017年）。铅暴露还会干扰铁代谢和红细胞功能，加剧易感人群的血液毒性（Yuksel等人，2017年），并在脐带血和胎盘组织中积累，对胎儿发育构成严重风险（Yuksel等人，2016年；Yuksel等人，2022年）。

尽管有这些明确的毒理学基础，当前的职业性铅暴露风险评估框架仍存在三个核心问题。首先，传统的基于回归的模型受到线性假设的限制，无法解决暴露强度、保护措施和早期健康生物标志物之间的复杂非线性相互作用（Liu等人，2023年）。其次，包括随机森林（RF）在内的传统机器学习方法在高维数据集中对高频特征存在固有偏见，系统性地低估了低发生率但医学上至关重要的生物标志物，如血小板分布宽度（PDW），导致亚临床低剂量暴露的漏诊率超过30%（Fox等人，2025年；?ivan?evi?等人，2024年）。第三，职业健康数据集中的类别不平衡严重，其中异常BL样本通常只占总样本的10-20%，这引入了算法对多数类的偏见，进一步降低了早期预警模型的敏感性（Christen等人，2023年）。传统的机器学习框架难以解决非线性暴露-生物标志物相互作用、高频特征偏见和类别不平衡问题，这凸显了需要一种将毒理学先验知识整合到算法设计中的医学先验指导范式的迫切需求。

蚁群优化（ACO）是一种受生物学启发的群体智能算法，它模拟蚁群的觅食行为，在高维空间中进行全局最优特征搜索（Xu等人，2023年）。它在医学研究中展现了独特的价值，包括医学图像加密优化（Karthikeyini等人，2023年）、疾病相关基因子网络的识别（Hanna等人，2024年）、高维医学数据的特征降维（Xia等人，2024年）和脑电图生物标志物分析（Saif Alghawli和Taloba，2022年）。基于这些处理复杂生物数据的成功经验，ACO的全局搜索能力特别适合解决职业健康数据集中的高维冗余和高频特征偏见问题。然而，尽管有这种明显的潜力，其在职业健康风险评估中的应用仍然很大程度上未被探索。关于铅毒代动力学的医学背景、现有评估方法的局限性以及ACO在生物医学研究中的应用先例的详细补充内容，请参见补充说明1。

虽然上述文献已经证明了ACO在生物医学特征选择中的价值，但现有的ACO-RF混合模型仅应用于非健康领域，包括光缆资源管理（Wu等人，2025年）、太阳辐射预测（Prasad等人，2019年）和光伏系统缺陷检测（Rana & Arora，2025年），没有针对职业健康研究的特定领域定制。这些方法将ACO纯粹视为一种技术特征选择工具，没有整合特定领域的生物学或毒理学知识，也没有适应职业健康数据的独特挑战，如类别不平衡和临床可解释性的需求。

目前还没有任何ACO-RF框架能够解决职业性铅暴露评估中的类别不平衡、高维偏见和低可解释性挑战，也没有将毒代动力学领域知识整合到算法设计中。为了填补这一关键研究空白，本研究提出了一种基于医学先验的ACO-RF模型，该模型采用双层优化系统。这是第一个系统地将铅的ADME毒代动力学途径整合到ACO-RF算法设计中的框架，筛选出既具有预测能力又在毒理学上合理的特征子集。该模型在大型多中心职业队列上进行了验证，其性能与主流的降维和分类方法进行了比较，并确定了职业健康管理的高风险暴露场景和可采取的干预措施。据我们所知，这是第一个为职业健康场景定制的ACO-RF框架，它系统地整合了毒理学领域知识，以解决现有评估框架的三个核心局限性。

方法部分

方法

在本节中，系统地描述了研究方法的三个核心组成部分。首先介绍了数据来源、队列选择标准、结果变量定义和数据预处理工作流程。接下来是环境暴露分布特征分析的统计方法。最后，介绍了所提出的基于医学先验的ACO-RF模型的设计原则、双层优化系统、实现细节和性能评估指标。

原始79维特征的多算法分析

使用四种经典算法评估了特征的重要性：随机森林（RF）、梯度提升决策树（GBDT）、最小绝对值收缩和选择算子（LASSO）和支持向量机（SVM），结果以双面板热图的形式展示在图1中。核心原理、优势和局限性在补充表2中详细说明。

有两个特征在所有算法和两种铅生物标志物中都显示出普遍的高重要性：PMI的标准化重要性接近1.0

传统算法在职业性铅暴露评估中的固有局限性

线性算法如LASSO忽略了暴露-保护-生物标志物之间的协同作用，导致忽略了CTWA等关键暴露强度指标（Tartaglione等人，2024年）。包括RF和GBDT在内的非线性算法系统性地低估了低发生率但医学上至关重要的特征，如PDW（Peters等人，2025年）。关键的是，无论是线性还是非线性方法都没有系统地结合铅的毒代动力学领域知识，造成了根本性的脱节

结论

本研究开发并验证了一种基于医学先验的ACO-RF模型，以解决现有职业性铅暴露评估方法的核心局限性。该模型在特征维度减少超过75%的情况下实现了出色的预测性能，并显著提高了异常BL样本的召回率，大大减少了亚临床铅暴露的漏诊率。该模型还识别了高风险行业和暴露组合，并明确了预测

CRediT作者贡献声明

王博深：监督、项目管理、资金获取、概念构思。陆新豪：写作——审阅与编辑、初稿撰写、可视化、验证、软件开发、方法论、数据分析、数据整理。赵园：写作——审阅与编辑。卢杰：写作——审阅与编辑、可视化、资源协调、调查、数据整理。朱宝莉：监督、项目管理、资金获取、概念构思。韩雷：写作——审阅与编辑

未引用的参考文献

Gottesfeld和Pokhrel，2011年；Ho等人，1998年；Larsen和Sánchez-Triana，2023年；Li等人，2022年；中华人民共和国国家卫生健康委员会，2015年；中华人民共和国国家卫生健康委员会，2019年；中华人民共和国国家卫生健康委员会与中国疾病预防控制中心，2024年；世界卫生组织，2021年。

数据声明

由于与参与机构的保密协议、敏感数据的隐私问题以及法律或合同限制，本研究生成和/或分析的数据集不能公开，但可根据合理请求从相应作者处获取。

利益冲突

所有作者声明没有已知的利益冲突。

利益冲突声明

? 作者声明他们没有已知的可能影响本文工作的财务利益或个人关系。

致谢

我们感谢所有参与者的贡献。本工作得到了江苏省医学重点学科（实验室）（ZDXK202249）、江苏省健康委员会（M2022083）、创伤与化学中毒国家重点实验室（SKLO202509）和江苏省自然科学基金（BK20230742）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言