基于活动悬崖(Activity Cliff)的特征选择方法,结合机器学习技术提升毒性预测的准确性
《Computational Toxicology》:Activity cliff-guided feature selection for improved toxicity prediction using machine learning
【字体:
大
中
小
】
时间:2026年06月04日
来源:Computational Toxicology 2.9
编辑推荐:
陈家丽|钱江雪|周玉燕|王守琳|陈超教育部现代毒理学重点实验室,南京医科大学公共卫生学院全球健康中心,中国南京龙眠大道101号,211166摘要准确的计算机模拟毒性预测对于化学安全评估和计算毒理学至关重要。本研究提出了一种新的Cliff方法,该方法利用活性悬崖对的结构-活性关系(
陈家丽|钱江雪|周玉燕|王守琳|陈超
教育部现代毒理学重点实验室,南京医科大学公共卫生学院全球健康中心,中国南京龙眠大道101号,211166
摘要
准确的计算机模拟毒性预测对于化学安全评估和计算毒理学至关重要。本研究提出了一种新的Cliff方法,该方法利用活性悬崖对的结构-活性关系(SAR)信息来增强机器学习模型的毒性预测能力。我们分析了Tox21数据集中的249个生物测定实验,并基于Tanimoto相似性和活性差异分析识别出活性悬崖对。使用Python Mordred计算了总共1613个分子描述符,并通过单特征决策树模型评估了每个描述符在每个生物测定数据集的悬崖对子集中的预测能力。通过对所有数据集构建和评估多种机器学习模型,我们证明了Cliff方法优于传统的特征工程方法,包括方差阈值处理、相关性分析、RFE和LASSO回归。Cliff方法的中位AUC值为0.736,特别是在非基于树的机器学习模型(如逻辑回归和SVM)中观察到了显著的改进(平均AUC提高了0.071)。进一步分析显示,对于七个关键描述符(包括d_ATS8Z、d_AATSC1d、d_AATSC5c、d_SLogP、d_ATSC2d、d_WPath和d_ATS8m),悬崖对的描述符值差异显著高于非悬崖对。这些发现突显了基于活性悬崖的特征选择作为提高计算机模拟毒性模型预测准确性和可解释性的有价值计算工具的潜力。
引言
准确评估化学毒性是现代化学安全评估和环境健康风险评估中的一个关键挑战[3]、[8]。传统的毒性测试方法严重依赖动物实验,这些实验耗时、昂贵且存在伦理问题[19]。因此,迫切需要能够快速准确预测化合物毒理特性的计算方法。定量结构-活性关系(QSAR)建模和机器学习已成为计算机模拟毒性预测的强大计算工具,可以量化化学结构与毒理终点之间的关系[2]、[23]。
随机森林和支持向量机等机器学习算法已广泛应用于计算毒性预测任务[1]。然而,这些模型的性能在很大程度上取决于用作输入特征的分子描述符的质量和相关性[11]。高维描述符空间通常包含不必要的或不相关的特征,这会降低模型的性能和可解释性。因此,有效的特征选择对于构建稳健且可解释的毒性预测模型至关重要[4]。
活性悬崖是指在相同靶点上表现出显著生物活性差异的结构相似化合物对[12]。这些悬崖对包含丰富的结构-活性关系(SAR)信息,突出了导致生物活性发生显著变化的具体结构修饰[17]。这类悬崖对的存在往往会降低预测模型的准确性。最近的研究表明,活性悬崖分析在理解SAR和指导计算化学及化学信息学中的化合物优化方面具有实用性[16]。Tox21项目为数千种化学物质在数百个生物测定实验中生成了大规模的高通量筛选数据([20];Tox21项目,无日期)。该数据集为开发和验证新的计算毒性预测模型提供了宝贵的资源[9]。
在这项研究中,我们提出了一种新的计算特征选择方法,该方法利用活性悬崖信息来识别用于毒性预测的关键分子描述符。通过分析数百个Tox21生物测定实验中悬崖对与非悬崖对之间的特征值差异,我们识别出能够有效区分活性化合物与非活性化合物的描述符。我们将这种基于活性悬崖的特征选择方法与传统方法进行了比较,并证明了其在多种机器学习算法中的预测准确性上有显著提升。
章节片段
数据集收集和预处理
Tox21生物测定数据来自PubChem,该数据库由美国国家生物技术信息中心(NCBI)维护[10]。共选择了249个生物测定实验进行分析,涵盖了核受体信号通路和应激反应通路等多种毒性终点[7]。化合物结构以SMILES格式获取,并使用RDKit(版本2023.9.1)进行结构标准化、数据清洗等处理
数据集概述和活性悬崖分布
经过质量筛选后,共有225个有效的Tox21生物测定实验被纳入分析。每个实验中的化合物数量从100个到超过10,000个不等,分布呈右偏态,大多数实验包含6500–7500个化合物。大多数化合物出现在150个以上的有效AIDs中,这表明这些化合物在不同生物测定实验中具有很强的结构相关性(图1A)。筛选后的数据集中的化合物主要为环状或芳香结构
讨论
本研究提出了一种基于活性悬崖分析的新计算特征选择策略,以提高机器学习模型的毒性预测性能。我们的结果表明,这种基于活性悬崖的特征选择方法在多个性能指标和许多数据集中的机器学习算法中均优于传统方法。据我们所知,这是首次系统地使用活性悬崖SAR数据作为指导
结论
本研究提出并验证了一种基于活性悬崖的计算毒性预测特征选择方法。通过分析结构相似但活性不同的化合物之间的特征值差异,Cliff方法能够识别出区分活性化合物与非活性化合物的关键分子描述符,即使它们的结构几乎相同。在225个Tox21生物测定实验中的评估表明,Cliff方法优于传统方法
CRediT作者贡献声明
陈家丽:验证、方法论。钱江雪:撰写——初稿、方法论。周玉燕:方法论。王守琳:撰写——审阅与编辑、监督、概念化。陈超:撰写——审阅与编辑、监督、项目管理、资金获取、概念化。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。
致谢
本工作得到了国家自然科学基金(资助编号[82103873、82173562])和江苏省大学生创新创业培训计划(资助编号[202510312017])的支持。我们感谢Tox21联盟生成并分享了本研究中使用的高通量筛选数据。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号