《Nature Communications》:Combining structural modeling and deep learning to calculate the E. coli protein interactome and functional networks
编辑推荐:
为解决蛋白互作预测精度不足难题,研究人员整合PrePPI(三维结构)、Topsy-Turvy(蛋白质语言模型)与ZEPPI(进化信息)三种方法,结合AF3Complex算法解析大肠杆菌蛋白互作组,构建385个高功能一致性亚网络,显著提升互作预测置信度并揭示未知功能蛋白生物学意义。
在生命科学的微观世界里,蛋白质就像精密机器里的齿轮,它们很少单打独斗,而是通过相互“握手”——形成蛋白复合物来执行各种生命活动。如果把细胞比作一座繁忙的城市,那么蛋白质之间的相互作用(Protein-Protein Interactions, PPIs)就是城市里错综复杂的交通网络,决定了物质运输、信号传递乃至整个城市的运转秩序。然而,想要绘制出这张精细的“分子交通图”并非易事。传统的实验方法不仅耗时耗力,而且往往只能捕捉到冰山一角;而现有的计算方法,要么过于依赖已知的结构数据,要么难以处理大规模的数据集,导致预测的准确性和覆盖度始终不尽如人意。特别是对于像大肠杆菌(E. coli)这样被广泛研究的模式生物,尽管我们已经对其基因组了如指掌,但其体内数以千计的蛋白质究竟如何相互协作,依然笼罩着一层迷雾。这种认知上的空白,极大地限制了我们对基本生命规律的理解,也阻碍了新型抗菌药物靶点的发现。正是在这样的背景下,一项旨在打破瓶颈的研究应运而生,它试图将结构生物学的精准与人工智能的高效结合起来,重新定义我们探索蛋白质世界的方式。
为了攻克这一难题,研究团队并没有局限于单一的技术路线,而是采取了一种“三管齐下”的创新策略。他们巧妙地融合了三种各具特色的预测方法:首先是PrePPI,这是一种基于三维结构信息进行预测的经典方法,就像是给蛋白质拍了一张高清的立体照片来观察它们的结合潜力;其次是Topsy-Turvy,它利用了先进的蛋白质语言模型,能够从海量的序列数据中学习蛋白质的“语法”和“语义”,从而推断其功能与相互作用;最后是ZEPPI,它通过分析进化过程中蛋白质界面的保守性来评估相互作用的可能性,仿佛是在追溯蛋白质的“家族谱系”来寻找线索。研究团队将这三种方法进行了深度的整合,并在高质量的HINT数据库上进行了严格的测试。结果显示,这种集成方法的性能显著优于任何一个单独的组件方法,能够识别出更多高置信度的相互作用。随后,研究人员利用AF3Complex算法成功预测了374个蛋白复合物的结构,并发现其中很大一部分的界面与PrePPI模型预测的界面存在至少部分重叠,这为预测结果的可靠性提供了强有力的结构证据。在此基础上,他们对大肠杆菌的高置信度互作组进行了聚类分析,最终得到了385个具有高度功能一致性的亚网络(subnetworks)。这些亚网络就像是一个个功能模块,揭示了细胞内不同生物学过程的组织逻辑,甚至帮助研究人员对一些功能未知的蛋白质进行了功能注释,带来了深刻的生物学洞察。这项研究成果最终发表在了国际顶级学术期刊《Nature Communications》上。
为了开展这项研究,作者主要采用了以下几个关键技术方法:首先,整合了PrePPI(基于三维结构)、Topsy-Turvy(基于蛋白质语言模型)和ZEPPI(基于进化信息评估蛋白界面)三种蛋白互作预测方法,构建集成预测模型;其次,使用AF3Complex算法预测蛋白复合物结构;此外,基于HINT数据库(高质量二元PPI数据库)对集成方法进行性能测试;最后,对大肠杆菌高置信度互作组进行聚类分析,构建功能亚网络并进行功能一致性评估。
Abstract
研究摘要指出,团队通过整合三种全蛋白质组规模的二元复合物预测方法,构建了集成预测体系。经HINT数据库测试,该集成方法性能优于各单一方法,可识别更多高置信度相互作用;利用AF3Complex预测374个PPI结构,多数与PrePPI模型界面存在部分重叠;聚类得到385个高功能一致性大肠杆菌亚网络,并深入探讨了亚网络带来的生物学洞察,包括对未知功能蛋白的注释。
研究背景与问题提出
当前蛋白互作预测面临方法局限性:单一方法或因依赖结构数据覆盖度低,或因缺乏结构信息准确性不足,难以全面解析大肠杆菌等模式生物的蛋白互作网络,限制了对细胞功能模块及未知功能蛋白的认知。
集成预测方法的构建与验证
研究整合PrePPI(三维结构基础)、Topsy-Turvy(蛋白质语言模型基础)、ZEPPI(进化信息评估界面)三种方法,形成新型预测体系。在HINT数据库(高质量二元PPI数据库)测试中,集成方法的预测性能优于任一单一方法,可识别更多高置信度相互作用,验证了多方法融合的优势。
蛋白复合物结构预测与界面分析
利用AF3Complex算法预测374个蛋白-蛋白相互作用(PPI)的三维结构,分析显示,这些结构中较大比例与PrePPI模型预测的同一复合物界面存在至少部分重叠,从结构层面证实了预测结果的可靠性。
大肠杆菌互作组的亚网络构建与功能分析
对筛选出的高置信度大肠杆菌互作组进行聚类分析,共获得385个亚网络。功能一致性分析表明,这些亚网络具有高度的功能连贯性,可作为独立的功能模块解析细胞生物学过程。
生物学洞察与应用
基于亚网络的功能分析带来了多项生物学发现,其中最突出的是对功能未知蛋白的功能注释。通过将未知蛋白定位到特定功能亚网络中,结合亚网络的已知功能,可推断其潜在生物学作用,为后续实验验证提供了明确方向。
研究结论与讨论
该研究成功构建了融合结构建模与深度学习的蛋白互作预测新范式,显著提升了大肠杆菌蛋白互作组的预测精度与覆盖度。通过AF3Complex的结构验证及亚网络的功能聚类,不仅解析了大肠杆菌细胞内蛋白互作的组织规律,还为未知功能蛋白的注释提供了高效策略。研究提出的集成方法与亚网络分析框架,为其他物种的蛋白互作组研究提供了可借鉴的技术路径,也为理解细胞功能模块、挖掘疾病靶点奠定了理论基础。