《Current Issues in Molecular Biology》:Screening of Natural Product-Derived USP7 Inhibitors for Cancer Therapy via Integrated Machine Learning and Molecular Simulations
编辑推荐:
泛素化(Ubiquitination)是一个关键的细胞蛋白质调控过程,与包括癌症在内的多种疾病相关。去泛素化酶(Deubiquitinases, DUBs)能够逆转泛素化过程,从而提供一种治疗策略。USP7作为DUB家族的一员,因其在使p53蛋白失稳中的作用而
泛素化(Ubiquitination)是一个关键的细胞蛋白质调控过程,与包括癌症在内的多种疾病相关。去泛素化酶(Deubiquitinases, DUBs)能够逆转泛素化过程,从而提供一种治疗策略。USP7作为DUB家族的一员,因其在使p53蛋白失稳中的作用而成为肿瘤学中的一个关键靶点,小分子抑制剂能够恢复p53活性并抑制肿瘤生长。在本研究中,研究人员整合了基于机器学习(ML)的筛选方法与分子对接和分子动力学(MD)模拟,以识别潜在的USP7小分子抑制剂。基于ML的筛选从2301种天然化合物库中鉴定出22个活性分子。在这22个活性化合物中,仅有15个化合物满足药效团相似性规则。随后,分子对接根据结合亲和力和相互作用筛选出三种化合物:PubChem 162957515、114917和442879作为潜在抑制剂。进一步,研究人员进行了MD模拟和MM-PBSA分析以评估复合物的稳定性和动态行为。分子力学-泊松-玻尔兹曼表面积(MM-PBSA)结合能计算显示,化合物PubChem 114917和162957515表现出强结合亲和力,分别为-20.98 kcal/mol和-18.68 kcal/mol,这表明这些化合物可作为开发抗癌治疗药物的有前景的抑制剂。
**论文解读文章**
**1. 研究背景、存在问题与研究目的**
蛋白质泛素化(Ubiquitination)是真核生物中调控多种生理过程的重要机制,包括受损或错误折叠蛋白质的清除、细胞周期进程和信号传导。泛素化过程由E1、E2、E3酶依次激活并转移泛素蛋白至底物蛋白,标记其命运,通常通过26S蛋白酶体导致降解。去泛素化酶(Deubiquitinating enzymes, DUBs)能够切除泛素,打破泛素与蛋白质之间的肽键,从而逆转泛素化。泛素化与去泛素化之间的平衡受到严格调控;其失调可引起异常癌症通路激活、炎症中蛋白质复合物组装缺陷以及蛋白质错误折叠,均对细胞功能产生负面影响。人类中已鉴定出约100种DUBs,主要分属金属蛋白酶和半胱氨酸蛋白酶两大家族。
USP7(泛素特异性蛋白酶7)是最大DUB家族USP的成员,于1997年首次被鉴定为即刻早期蛋白的伴侣,主要定位于细胞核。它在稳定参与DNA修复、激酶调控、转录、表观遗传基因表达和病毒感染的多种蛋白质中发挥关键作用。以往研究表明,多个USPs具有重要生物学功能,使其成为有吸引力的治疗靶点。USP7因其在调控肿瘤抑制因子p53中的功能而成为潜在的肿瘤学靶点。此外,USP7在多种癌症中过表达,如骨髓瘤、前列腺癌、胶质瘤、肝细胞癌和卵巢癌。已有研究探索了针对p53-MDM2相互作用等下游通路的计算机辅助药物发现方法,强调了泛素系统的治疗相关性。
泛素连接酶MDM2促进肿瘤抑制因子p53的降解。USP7耗竭会催化包括MDM2在内的USP7底物的泛素化,随后MDM2经蛋白酶体变性可稳定p53,从而刺激细胞周期停滞和凋亡。USP7的上调还激活NOTCH和WNT/β-catenin等细胞信号通路,促进癌细胞增殖。因此,抑制USP7可增强其他底物的泛素化,调节细胞生理并重新激活p53通路,从而抑制癌细胞生长,这为多种癌症的治疗提供了潜在益处。
传统药物发现方法虽然基础,但在发现新型化合物方面存在范围和能力上的局限性。近年来,人工智能模型极大革新了药物发现领域。鉴于单一方法流程在虚拟筛选中的局限性,本研究采用了混合机器学习(ML)和计算机辅助药物发现(CADD)的方法。该混合方法相较于传统药物发现方法具有显著优势。本研究旨在通过集成基于ML的虚拟筛选与分子动力学模拟,识别靶向USP7催化核心结构域的潜在抑制剂,为癌症治疗提供新途径。
**2. 关键技术与方法**
研究人员主要采用了以下关键技术方法:
(1)数据获取与处理:从BindingDB数据库检索已知USP7抑制剂,并通过DUD-E数据库生成诱饵(decoy)分子,利用RDKit计算30种分子描述符,并应用合成少数过采样技术(SMOTE)处理类别不平衡。
(2)主成分分析(PCA):使用Scikit-learn对描述符进行降维,提取主成分。
(3)机器学习模型构建与筛选:构建并比较支持向量机(SVM)、K近邻(KNN)、朴素贝叶斯(NB)和随机森林(RF)等模型,采用10折交叉验证评估性能,选择最优RF模型用于筛选来自MPD3库的2301种天然化合物;随后通过Lipinski五规则评估类药性。
(4)分子对接:使用AutoDock Vina将筛选出的化合物对接到USP7的泛素结合位点(PDB ID: 5UQX),评估结合亲和力与相互作用。
(5)分子动力学(MD)模拟:利用GROMACS 2024和charmm36力场,对候选化合物-蛋白质复合物进行100 ns的MD模拟,分析均方根偏差(RMSD)、均方根波动(RMSF)、溶剂可及表面积(SASA)、回转半径(Rg)及主成分分析(PCA)。
(6)结合自由能计算:采用MM-PBSA方法计算最后25 ns的结合自由能。
**3. 研究结果**
**3.1 数据检索与处理**
从BindingDB获得965个已知USP7活性抑制剂,DUD-E生成2872个诱饵分子,合并共3837个化合物,按70%训练集、30%测试集划分,并使用RDKit计算特征。
**3.2 基于主成分分析的机器学习特征降维**
PCA显示第一主成分(PC1)解释99.44%的方差,PC2仅0.56%,表明PC1捕获了绝大部分关键信息。
**3.3 模型评估**
随机森林(RF)表现最优,准确率96%,马修斯相关系数(MCC)0.90,AUC达0.99,显著优于SVM、KNN和朴素贝叶斯。RF在测试集上准确率98%,灵敏度95.8%,特异性98.6%。
**3.4 基于ML模型的新数据集筛选与适用域分析**
应用RF模型筛选2301种天然化合物,预测22个活性分子,去除3个重复后得19个活性化合物。经Lipinski五规则筛选,15个化合物满足类药性标准。适用域(AD)分析表明19个化合物中17个位于模型可靠预测空间内。
**3.5 分子对接结果**
对接验证中,重新对接的天然配体GNE6776的RMSD为1.1 ?。对接后筛选出三个化合物:PubChem 162957515、114917和442879,结合能分别为-11.3、-10.6和-10.2 kcal/mol,均优于GNE6776的-9.9 kcal/mol。这些化合物与关键残基(如ARG301、GLU345、ASP346等)形成氢键。
**3.6 候选化合物的PASS在线分析**
PASS分析预测三个化合物均具有抗肿瘤活性(Pa>0.2),包括针对乳腺癌、宫颈癌、肉瘤和脑癌的活性,显示广谱抗癌潜力。
**3.7 分子动力学模拟**
RMSD分析显示PubChem 442879平均RMSD最低(0.20 nm),114917和GNE6776分别为0.23 nm,162957515最高(0.27 nm)。RMSF分析显示所有复合物残基波动低于0.3 nm,但环区D374-E388、P413-D416等波动较大。SASA分析显示PubChem 442879和162957515具有最低SASA值,表明更紧密的结构。回转半径(Rg)表明PubChem 442879和114917具有最低Rg值。
**3.8 模拟后相互作用分析**
PubChem 162957515和114917在100 ns模拟后仍稳定结合在USP7活性位点内,而PubChem 442879在模拟过程中脱离活性位点。
**3.9 氢键分析**
PubChem 162957515持续形成1-3个氢键,偶尔达4个;PubChem 114917形成1-2个氢键;PubChem 442879仅形成少量短寿命氢键,显示弱结合。
**3.10 模拟后主成分分析**
PCA显示apo-USP构象分布更广、更分散;GNE6776和162957515复合物分布紧密集中;114917和442879分布相对致密但略分散,表明配体结合稳定了USP7构象。
**3.11 三个复合物的MD模拟重复**
第二轮100 ns模拟中,三个候选化合物的RMSD曲线与第一轮高度一致,验证了模拟的可重复性。PubChem 162957515和114917在模拟结束时仍稳定结合,而PubChem 442879再次脱离。
**3.12 MM-PBSA计算**
MM-PBSA结合自由能显示:GNE6776为-25.45 kcal/mol,PubChem 114917为-20.98 kcal/mol,162957515为-18.68 kcal/mol,而442879仅为-0.18 kcal/mol,证实前两者结合力强,后者几乎无结合。残基能量分解显示ARG301在两个复合物中均为关键稳定残基。
**4. 讨论**
本研究利用基于机器学习筛选方法寻找靶向USP7的潜在抑制剂。训练好的RF模型用于筛选天然产物库MPD3,通过类药性过滤、分子对接、MD模拟和MM-PBSA分析,最终鉴定出三个候选化合物。对接分析显示三个化合物与天然抑制剂GNE6776占据相同的变构口袋,并与关键残基ARG301、ASP346、ASP349相互作用,这与已报道的USP7变构抑制剂结合机制相似。MD模拟和MM-PBSA证实PubChem 114917(丹参酮I,Tanshinone I)和162957515具有稳定的蛋白质-配体相互作用和强结合亲和力。文献报道丹参酮I具有抗白血病、乳腺癌、抗炎等活性,而Hinokinin(化合物442879)具有抗增殖、神经保护等活性。本研究首次从计算角度揭示了它们与USP7的结合机制。但本工作基于计算机模拟,需进一步体外、体内实验验证其抑制活性、选择性和安全性。
**5. 结论翻译**
本研究旨在通过靶向USP7作为可能的药理学靶点来探索治疗方法。采用集成策略筛选天然化合物库中的USP7抑制剂,随后进行MD模拟和MM-PBSA自由能计算。利用机器学习模型优先筛选数据集中的生物相关化合物,并随后通过分子对接、分子动力学模拟和MM-PBSA分析进行评估。分子对接分析揭示了三种潜在结合剂:PubChem 162957515、114917和442879,基于有利的结合能分数和与USP7活性位点关键残基的相互作用。MD模拟和MM-PBSA证实了USP7抑制剂复合物的稳定性。MD模拟显示化合物PubChem 114917和162957515强烈稳定了USP7结构,在模拟期间产生低结构波动和极佳稳定性。MM-PBSA结果显示化合物PubChem 114917和162957515具有高结合亲和力,表明它们是有效的USP7抑制剂。在所识别的化合物中,PubChem 114917和162957515表现出最有利的计算特征,包括稳定的蛋白质-配体相互作用和强结合亲和力。这些发现表明,所识别的化合物可作为开发新型USP7抑制剂的有前景的起点。虽然计算结果为PubChem 114917和162957515的抑制潜力提供了坚实基础和宝贵的预测见解,但仍需通过体外和体内研究进行实验验证,以确认其活性、评估药理学性质并评估其在癌症及其他USP7相关疾病中的治疗相关性。