NeuroBACE-ML：一种基于可靠性评估的筛选框架，用于高效优先筛选具有潜在活性的BACE1抑制剂

《Journal of Molecular Graphics and Modelling》：NeuroBACE-ML: A reliability-aware screening framework for high-throughput prioritization of potent BACE1 inhibitors

【字体：大中小】 时间：2026年04月22日 来源：Journal of Molecular Graphics and Modelling 3

编辑推荐：

　　基于严格生物活性标注的BACE1抑制剂筛选框架NeuroBACE-ML通过XGBoost模型和Optuna超参数优化，结合多维度可靠性评估机制，实现了高AUROC（0.986）和AUPRC（0.991）的预测性能，并在独立BindingDB数据集上验证了泛化能力。

Kunal Bhattacharya | Nongmaithem Randhoni Chanu | Dibyajyoti Das | Pukar Khanal | Atanu Bhattacharjee

计算药物发现中心，Pratiksha药学科学研究所，古瓦哈提，阿萨姆邦，781026，印度

摘要

Beta位点淀粉样前体蛋白切割酶1（BACE1）是淀粉样β蛋白生成的关键酶，在阿尔茨海默病（AD）药物发现中仍是一个重要目标。本文介绍了NeuroBACE-ML，这是一个基于可靠性的筛选框架，用于从小分子库中高效优先筛选出强效的BACE1抑制剂。人类BACE1的生物活性数据来自ChEMBL，并使用严格的二元定义在pIC50尺度上进行了标准化，以减少标签的模糊性：活性（IC50 ≤ 100 nM；pIC50 ≥ 7）和非活性（IC50 ≥ 1 μM；pIC50 ≤ 6），同时排除了中间灰色区域（100–1000 nM；6 < pIC50 < 7）。分子通过Morgan指纹图谱表示，主要分类器使用基于Optuna的超参数优化通过XGBoost构建。在固定的随机保留测试集上，NeuroBACE-ML表现出较高的区分性能，AUROC = 0.986，AUPRC = 0.991，MCC = 0.868，以及在0.70的操作阈值下的平衡准确率 = 0.943（真阳性 = 468，假阳性 = 14，假阴性 = 71，真阴性 = 763）。为了增强未来筛选的可靠性，该框架结合了概率校准、骨架感知的鲁棒性评估、适用域感知的决策支持、弃权逻辑和集成不确定性分析。此外，在独立的非重叠BindingDB数据集上的外部验证也支持了其泛化能力（AUROC = 0.969，AUPRC = 0.987，MCC = 0.790）。虽然该框架主要用于早期候选物优先排序，而非直接临床转化，但它为识别高置信度的BACE1抑制剂候选物提供了实用且可部署的工具，以便进行后续的药物化学研究和实验验证。排除中间化合物可能会简化实际筛选中可能出现的边界活性模式，从而限制其实际应用。NeuroBACE-ML作为一个Web应用程序可在https://neurobace-ml.streamlit.app/获取，支持代码和部署资源可通过GitHub在https://github.com/kunal74/NeuroBACE-ML获得。

引言

阿尔茨海默病（AD）是一种进行性的神经退行性疾病，具有巨大的全球负担，而改变疾病进程的策略仍然是一个主要的未满足需求。AD的一个核心分子特征是淀粉样β（Aβ）肽的积累，这些肽来源于淀粉样前体蛋白（APP）的连续蛋白水解。淀粉样生成途径中的初始限速步骤由β位点APP切割酶1（BACE1，β-分泌酶）催化，随后γ-分泌酶处理产生Aβ物种。由于BACE1活性直接控制Aβ的生成，长期以来BACE1一直被认为是减少Aβ产生的一个有吸引力的目标，特别是在疾病的早期阶段，此时上游干预可能最为有效[[1], [2], [3]]。

从结构上看，BACE1是一种膜相关的天冬氨酸蛋白酶，其催化活性由位于延长的底物结合裂隙内的保守Asp32-Asp228催化二聚体介导[4,5]。该酶包含多个可以容纳肽类和小分子配体的亚位点，其活性位点结构已被广泛用于BACE1抑制剂的设计。除了催化二聚体外，如灵活的瓣状区域等构象元素也有助于调节底物和抑制剂对活性位的访问，并影响配体识别行为[6]。从药物发现的角度来看，这些结构和机制特征使BACE1成为计算筛选的合理目标，因为抑制效力取决于在特征明确的催化口袋内的相互作用。同时，有效的BACE1抑制所需的结构要求解释了为什么需要仔细优先选择化合物，特别是在区分高效力抑制剂和边界或弱结合剂时。

尽管有坚实的机制依据，但BACE1抑制的临床转化仍然具有挑战性。多个小分子BACE抑制剂已进入后期临床试验，但由于缺乏临床疗效或安全信号（包括某些情况下观察到的认知衰退），几个项目被终止。这些结果突显了在降低Aβ和保持BACE1的生理功能之间实现最佳平衡的复杂性，因为BACE1还有其他参与突触生物学和神经稳态的底物。因此，当代观点越来越强调在追求BACE1调节时需要仔细选择化合物、优化剂量和改进风险-收益分层[2,7]。

在这种背景下，计算筛选和优先排序可以通过将资源集中在最有希望的化合物上来减少实验负担。实际上，早期发现策略通常涉及筛选大型库，其中只有一小部分化合物需要合成、购买和生化确认。基于精心策划的生物活性数据训练的机器学习（ML）模型可以作为快速分诊工具，根据预测的活性概率对化合物进行排名，使药物化学团队能够筛选出高可能性的候选物，同时保持高通量。公共生物活性库的日益增加的可用性支持了这些方法。特别是ChEMBL提供了一个大型、手动策划的化合物-靶标活性测量集合，这些数据来自主要文献，并已成为数据驱动药物发现的广泛使用资源[8,9]。

在应用于化学生物活性预测的ML方法中，梯度提升决策树仍然是强大的基线，因为它们在稀疏、高维的分子指纹图谱上表现良好，并且可以高效训练和部署。XGBoost是一种广泛采用的提升树实现方式，旨在实现可扩展性和性能，并已在包括依赖二进制指纹图谱（如Morgan式表示）的化学信息学工作流中得到广泛应用[10,11]。然而，仅靠高的性能指标不足以构成一个可部署的筛选工具。评审者和最终用户越来越期望有超出随机分割的鲁棒性评估证据，以及对领域外化学或边界预测的明确可靠性控制。这些期望与(Q)SAR建模的既定指导原则一致，后者强调明确的适用域和透明报告，以支持可信的使用[12,13]。

之前的BACE1聚焦的机器学习和QSAR研究已经探索了已建立的化学信息学策略，包括基于描述符的模型和基于树的集成方法。因此，本研究的贡献不是引入一个全新的基础算法，而是一个结合了严格效力标记、骨架感知的鲁棒性评估、校准分析、适用域控制、弃权逻辑和实际部署的可靠性感知BACE1筛选框架。

在这项工作中，我们介绍了NeuroBACE-ML，这是一个基于可靠性的筛选框架，用于从小分子库中高效优先筛选出强效的BACE1抑制剂。该框架围绕严格的生物活性标记方案构建，以减少模糊性，使用适合快速推断的指纹图谱表示，并包含明确解决筛选环境中泛化和可靠性的评估组件。除了传统的区分指标外，NeuroBACE-ML还集成了概率校准和适用域感知的弃权策略，以提高预测的可靠性，当化合物在结构上与训练参考空间不同时或模型置信度较低时。总之，NeuroBACE-ML旨在支持候选BACE1抑制剂的实际优先排序，以便进行后续的实验验证和药物化学优化。

研究设计和工作流程概述

NeuroBACE-ML被开发为一个二元的、高通量的筛选框架，用于从小分子库中优先筛选出强效的BACE1抑制剂。工作流程包括：(i) BACE1生物活性数据的收集和整理；(ii) 将效力值转换为pIC50尺度并构建严格的二元标签；(iii) 使用圆形指纹图谱进行分子特征化；(iv) 使用优化的梯度提升树模型进行监督学习；(v) 使用传统方法进行评估。

结果

所有主要性能指标都是在完整的保留测试集上计算的。补充表S3仅报告了具有有效标准化SMILES和成功生成指纹图的化合物的预测结果（n = 1196），这是由于部分条目的结构标准化限制。

讨论

BACE1仍然是淀粉样生成途径中的一个核心目标，但临床经验表明，将BACE1抑制转化为安全有效的疾病修饰手段是困难的，这强调了仔细选择化合物和风险意识筛选策略的必要性。在这种情况下，我们开发了NeuroBACE-ML作为一个实用的、可部署的筛选框架，它强调高置信度的效力判断，而不是边界解释，通过使用严格的标签制度（活性 vs...）

结论

NeuroBACE-ML提供了一个可部署的、基于可靠性的机器学习框架，用于从大型化学库中优先筛选出强效的BACE1抑制剂。使用严格的效力定义和为筛选量身定制的固定操作点，该模型在主要保留测试集上实现了强大的区分能力和平衡的操作点性能。除了主要指标外，该框架还集成了校准评估、骨架感知的鲁棒性评估、Y-随机化控制等。

数据和代码可用性

NeuroBACE-ML的代码库和部署资源可通过项目GitHub仓库在https://github.com/kunal74/NeuroBACE-ML获得。当前版本对应于NeuroBACE-ML v1.1，包括部署的模型文件（BACE1_option1_binary_xgb.json）、Streamlit应用程序源代码（app.py）、依赖文件（requirements.txt）和训练参考结构文件（training_reference_smiles.csv）。部署的Web应用程序可在//neurobace-ml.streamlit.app/获取。

伦理批准和参与同意

不适用。

出版同意

不适用。

数据和代码可用性

本研究中使用的原始数据来自方法部分描述的公共来源。在本研究期间生成的任何派生/整理的数据集可根据原始数据源的许可条款，通过相应作者获得。完整的建模工作流程和Streamlit Web应用程序的源代码在NeuroBACE-ML GitHub仓库中公开可用。

资金

不适用。

CRediT作者贡献声明

Kunal Bhattacharya：概念化、数据整理、调查、方法论、软件、验证、可视化、初稿撰写、审阅与编辑。Nongmaithem Randhoni Chanu：数据整理、调查、初稿撰写、审阅与编辑。Dibyajyoti Das：方法论、可视化、撰写、审阅与编辑。Pukar Khanal：数据整理、软件、可视化、撰写、审阅与编辑。Atanu Bhattacharjee：方法论、初稿撰写

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

摘要

引言

研究设计和工作流程概述

结果

讨论

结论

数据和代码可用性

伦理批准和参与同意

出版同意

数据和代码可用性

资金

CRediT作者贡献声明

利益冲突声明

热点排行