基于SMILES符号与蒙特卡罗优化构建大鼠重复剂量毒性计算机预测模型的研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Toxics》：Per- and Polyfluoroalkyl Substances and Endometriosis: A Systematic Review and Meta-Analysis Sarah Pilling, Kerry Mitchell and Prakash V. A. K. Ramdass

【字体：大中小】 时间：2026年04月20日 来源：Toxics 4.1

编辑推荐：

　　为了应对传统化学物质安全评估依赖大量动物实验的挑战，本研究利用蒙特卡罗优化技术和拉斯维加斯算法，开发了一种基于简化分子输入行输入系统（SMILES）描述符的定量构效关系（QSAR）模型。该模型旨在计算机模拟（in silico）预测大鼠的未观察到有害作用水平（NOAEL），从而为化学物质重复剂量毒性的快速、无动物评估提供了一种有前景的替代方案。结果表明，模型在验证集上具有较好的预测潜力（平均决定系数R2=0.77±0.04），有助于加速化学安全评估流程，符合减少动物使用的伦理趋势。

在我们日常生活的环境中，化学物质无处不在，从食品添加剂到工业产品，它们与我们的健康息息相关。为确保安全，监管机构需要为这些化学物质设定一个“安全剂量”，即一个长期接触也不会对人类产生有害影响的水平。传统上，这个关键数据——未观察到有害作用水平（NOAEL）——的获得依赖于耗时数月、耗费巨大的动物实验，这构成了化学安全评估的主要瓶颈。不仅成本高昂、周期漫长，日益增长的伦理关切也促使科学界寻找动物实验的替代方案。随着欧盟等机构推动“无动物、新方法”的化学安全评估策略，利用计算机模型预测化学毒性，成为极具吸引力的前沿方向。然而，预测因重复暴露而产生的系统性毒性极为复杂，传统的定量构效关系模型在此上面临挑战。本研究正是在此背景下，旨在开发一种新颖、高效的计算机模型，用于模拟大鼠的重复剂量毒性，为加速海量化合物的安全评估提供新工具。该研究成果发表在期刊《Toxics》上。

为开展此项研究，作者主要运用了以下几项关键技术方法：首先，通过文献和OpenFoodTox数据库收集了848种化合物的NOAEL实验数据，并将其转换为负常用对数值（pNOAEL）作为建模端点。其次，利用基于蒙特卡罗技术和拉斯维加斯算法的CORAL软件进行模型构建，该算法用于将数据集前瞻性地分割为训练集和验证集。模型的核心是计算基于SMILES符号属性的最优描述符，通过关联权重来表征分子结构。最后，采用包含主动训练、被动训练和校准集的复杂关联平衡方案来优化模型参数，并利用相关性理想指数等统计指标评估模型性能。

2.1. 数据

研究人员从已发表文献和OpenFoodTox数据库中收集了1100个关于NOAEL的数值数据，经过去重和标准化（使用VEGAHUB平台）后，最终得到848个化合物的工作集。这些数据的pNOAEL值分布具有代表性，为后续建模奠定了基础。图1直观展示了所有848个化合物实验值的分布直方图。

2.2. 模型

研究构建了一个线性定量构效关系模型，其核心公式为 pNOAEL = C₀+ C₁× DCW(T,N)。其中，DCW为最优描述符，是SMILES中单个原子（S_k）和原子对（SS_k）的关联权重之和。T和N是蒙特卡罗优化的关键参数，分别代表SMILES属性纳入模型的最低频率阈值和优化迭代周期数。C₀和C₁为通过最小二乘法定义的回归系数。该模型采用了将训练集进一步分为主动训练、被动训练和校准集的关联平衡方案，以增强模型的稳健性和可重复性。表1以具体化合物为例，展示了其最优描述符的计算过程。

2.3. 优化

为了获得最优的关联权重，研究采用了蒙特卡罗优化，并定义了两个目标函数（TF₀和TF₁）。TF₀主要关注主动训练集与被动训练集的相关性，而TF₁在TF₀基础上引入了相关性理想指数的考量。相关性理想指数用于衡量模型预测误差的对称性，是评估模型质量的重要指标。通过计算机实验，确定最优化的参数为T=3, N=15。

3. 结果

经过五次独立计算实验，模型在验证集上表现出良好的预测潜力，平均决定系数（R2）达到0.77 ± 0.04。这表明基于SMILES和蒙特卡罗优化构建的模型，能够有效地从化学结构预测其重复剂量毒性终点（pNOAEL）。与之前类似研究（如Ghosh和Roy的q-RASAR模型、Hisaki等人的人工神经网络模型）相比，本研究使用的模型虽然结构更简单（无需计算复杂的分子描述符），但基于更大的数据集（848 vs. 186或421）和独特的优化策略，取得了具有竞争力的预测性能，并具有更好的外部验证基础。

4. 结论与讨论

本研究表明，基于SMILES符号的最优描述符，结合蒙特卡罗优化和拉斯维加斯算法，能够成功构建用于预测大鼠重复剂量毒性（以pNOAEL为端点）的稳健计算机模型。该方法为快速评估大量现有及新化学物质的重复剂量毒性提供了一种可行的、无动物的替代方案。其重要意义在于：第一，方法学创新：提供了一种不依赖传统分子描述符计算、相对简单但有效的QSAR建模新路径。第二，应用价值：能够显著加速化学安全评估流程，降低成本，并响应减少动物实验的伦理与监管要求（如欧盟REACH法规）。第三，数据基础扎实：模型基于目前公开可用的最大规模NOAEL数据集之一构建，增强了结果的可靠性。当然，研究也指出当前模型为线性，未来探索非线性模型或许能进一步提升预测能力。总体而言，这项研究为推动计算毒理学发展、实现更高效环保的化学风险评估提供了有力的工具和新的思路。

联系信箱：

粤ICP备09063491号

热点排行