基于多模态图表示学习的病毒靶标蛋白多标签预测

《PLOS Computational Biology》:Multilabel prediction of virus target proteins via multimodal graph representation learning

【字体: 时间:2026年05月27日 来源:PLOS Computational Biology 3.6

编辑推荐:

  病毒靶标蛋白(VTPs)的识别对于理解病毒发病机制至关重要。现有的计算研究通常将其视为一个通过预测宿主-病毒蛋白相互作用(PPIs)来解决的单标签问题。然而,事实上可以仅基于宿主蛋白的固有信息来识别病毒靶标蛋白。此外,一个宿主蛋白可能参与多种病毒的感染过程,这

  
病毒靶标蛋白(VTPs)的识别对于理解病毒发病机制至关重要。现有的计算研究通常将其视为一个通过预测宿主-病毒蛋白相互作用(PPIs)来解决的单标签问题。然而,事实上可以仅基于宿主蛋白的固有信息来识别病毒靶标蛋白。此外,一个宿主蛋白可能参与多种病毒的感染过程,这一场景可以被视为一个多标签预测问题。本研究提出了MultiVTP,一个采用基于图学习与多模态信息的VTP预测多标签框架。该算法对以查询蛋白为中心的子图进行采样以捕获其拓扑特性,同时提取多模态特征从互补视角表征蛋白质。一个图Transformer模型整合并升级这些属性特征,随后一个渐进式分层提取模块捕获跨病毒的共享与特异性结合模式,以预测VTPs。消融实验表明,基于图的属性与模块是性能的关键贡献者,而额外组件则进一步提升了预测精度。全面的评估表明,MultiVTP不仅超越了各种基线模型,而且在训练数据有限的情况下仍保持稳健性。将该方法应用于人类蛋白质组,实现了对单个及多种病毒的新型VTPs的系统识别。
病毒与宿主蛋白质-蛋白质相互作用(PPIs)参与了病毒为复制而劫持的多种生物学过程。病毒靶标蛋白(VTPs)是被病毒组分特异性识别和结合的宿主蛋白。在宿主细胞中,这些蛋白不仅参与免疫调节,还协调病毒生命周期的多个阶段。例如,人类蛋白血管紧张素(angiomotin)通过桥接病毒Gag蛋白和宿主蛋白NEDD4L,促进人类免疫缺陷病毒1型(HIV-1)的出芽。识别VTPs对于阐明病毒发病的分子机制至关重要,并为抗病毒药物开发提供了有前景的途径。利用酵母双杂交(Y2H)和亲和纯化质谱(AP-MS)等实验技术,已表征了大量病毒-宿主蛋白相互作用。例如,J?ger等人利用AP-MS构建了高质量的HIV-人类蛋白相互作用组。Shapira等人通过Y2H鉴定了参与流感病毒复制的宿主因子。Gordon等人利用AP-MS生成了SARS-CoV-2的全局蛋白相互作用图,而Stukalov等人则对SARS-CoV-2和SARS-CoV的相互作用组进行了分析,以执行多组学研究。这些研究共同为开发识别VTPs的计算方法提供了关键的实验数据集。

尽管取得了进展,现有研究仍存在若干问题亟待深入探讨。首先,现有方法通常需要病毒蛋白信息来预测宿主蛋白与病毒之间的相互作用。事实上,这种相互作用可以仅基于宿主蛋白是否表现出与已知VTPs相似的特征来推断。据研究人员所知,仅有HIVPRE算法完全依赖宿主蛋白信息来预测与HIV-1的相互作用倾向。其次,一个人类蛋白可能参与多种病毒的感染过程。然而,当前的预测算法通常被设计为针对特定病毒的单标签二分类问题。这无法直接评估一个宿主蛋白是否与多种病毒相互作用,这一场景可以被视为一个多标签问题。第三,尽管人类PPI网络已被用于提取宿主蛋白的相关特征以完成上述任务,但其作为专门VTP预测框架基础的潜力尚未被探索。最后,计算识别跨广泛病毒种类的人类蛋白质组中的潜在VTPs,可能是现有研究中的一个显著空白。填补这一空白可能为理解宿主-病毒相互作用的原理提供新的见解。

基于这些挑战,研究人员提出了MultiVTP,一个融合图表示学习与多模态信息的VTP预测多标签模型。在该框架内,研究人员首先围绕查询蛋白采样多个子图以捕获其局部上下文。对于每个子图,研究人员提取全局和局部网络特性来表征每个节点的拓扑角色。此外,研究人员整合了多模态信息,包括传统特征、序列特征和功能特征,以获得每个蛋白质的综合表征。然后,使用图Transformer整合和精炼来自子图的拓扑和多模态特征。最后,引入了一个专门的模块来建模跨多种病毒的共享和特异性结合模式,从而实现有效的多标签VTP预测。广泛的评估表明,MultiVTP优于各种基线模型,并且在训练数据有限时保持稳健性。应用于人类蛋白质组时,该方法能够系统地为单个和多种病毒识别新的VTP候选蛋白。

为开展本研究,研究人员使用了以下主要技术方法:首先,基于从HIPPIE数据库获取的人类实验验证的PPI网络,使用随机游走(RW)算法围绕每个查询蛋白采样固定大小的子图,以捕获其局部网络拓扑环境。其次,利用node2vec算法从PPI网络中提取蛋白质的全局拓扑特征,并通过Dijkstra算法计算子图内节点间的最短路径距离作为局部拓扑特征。同时,提取多模态蛋白质特征:包括氨基酸组成、进化保守性(如同源基因数、蛋白质年龄、dN/dS比率)、网络中心性指标等传统特征;使用ESM2模型对蛋白质序列进行编码得到序列特征;利用PubMedBERT模型处理基因本体(GO)术语并结合图卷积网络(GCN)生成功能特征。然后,将上述特征整合,通过Graphormer模型(一种结合自注意力机制与图拓扑信息的图Transformer)对子图内的蛋白质特征进行集成和升级,其中局部拓扑信息被用作注意力分数的偏置。最后,采用渐进式分层提取(PLE)模块,该模块包含共享专家和病毒特异性专家,通过门控机制整合其输出,以捕获跨病毒的共享与特异性结合模式,最终生成每个蛋白质对应每种病毒的预测分数。本研究的数据集基于从UniProt和HVIDB数据库整合的蛋白质信息构建,包含了病毒物种和病毒家族两个层次的多标签数据。

研究结果部分,首先对研究选定的多模态特征进行了综合分析。研究人员系统地分析了样本在序列、进化、结构和网络方面的传统特征。结果表明,VTPs相比非靶标蛋白含有更多带电荷的极性氨基酸(如天冬氨酸、谷氨酸、赖氨酸),具有更强的进化保守性(表现为更低的dN/dS比率、更古老的蛋白质年龄和更多同源基因),具有更多的α-螺旋和更少的无规卷曲结构,并在人类PPI网络中表现出更高的度中心性、接近中心性、聚类系数和介数中心性。这些传统特征能够区分VTPs与非VTPs,并进一步区分不同病毒种类的VTPs。接着,评估了不同类型特征的有效性,发现网络拓扑特征贡献最大,传统特征次之,序列和结构特征相对较弱,但四类特征整合后能提升预测性能。SHAP分析进一步证实了网络拓扑特征(尤其是接近中心性)的重要性。基于node2vec的全局拓扑特征在t-SNE可视化中显示出VTPs与非VTPs以及不同病毒VTPs之间的分离趋势。功能相似性分析表明同一病毒的VTPs之间功能关联更强。基于这些分析,研究人员提出并构建了MultiVTP模型。

其次,进行了模型的可解释性与消融研究。在特征层面,移除多模态特征(仅保留网络属性)会导致性能下降,其中传统特征比序列和功能特征更为关键,但不同特征对不同病毒有不同效用。在模块层面,移除Graphormer造成的性能下降最显著,替换PLE模块为MLP也会负面影响性能。对Graphormer组件的消融实验表明,全局拓扑属性是关键,而局部拓扑属性影响较小。将Graphormer替换为图卷积网络(GCN)或图注意力网络(GAT)会导致性能下降,因其难以捕获长程依赖。可解释性分析显示,Graphormer能为VTPs分配更高的注意力分数,且这些高注意力蛋白富集在与宿主-病毒相互作用、先天免疫和抗病毒防御相关的生物过程中。PLE模块生成的共享表示能更有效地将VTPs与非VTPs分离,而特定表示则能更好地区分特定病毒的VTPs,两者互补。

第三,评估了MultiVTP相较于基线方法的优势。与仅使用宿主蛋白信息的HIVPRE算法相比,MultiVTP在HIV-1靶标预测上AUC和AUPR均有显著提升。与使用传统宿主-病毒PPI预测方法相比,后者更容易将宿主蛋白误判为假阳性。与多种机器学习方法(如MLP、XGB、RF、SVM)及其多标签学习策略(如二元关联、分类器链、标签幂集)相比,MultiVTP在整体性能指标(如MCC、AUPR)上均达到最优,尤其在训练样本极少的病毒(如LCMV、MeV)上表现突出。当移除部分训练VTPs模拟数据有限场景时,MultiVTP的性能下降幅度小于其他方法,展现了其在数据稀缺条件下的鲁棒性。此外,在病毒靶标蛋白数在20-100个之间的少样本学习场景下,MultiVTP(尤其是经过微调后)也显著优于XGB-BR基线模型。

最后,将MultiVTP应用于完整的人类蛋白质组(20,270个蛋白),为单个和多种病毒预测了新的VTP候选蛋白。对于单个病毒,如H1N1和HIV-1,预测了大量候选蛋白,其中部分为已知VTP的回收(recovered),部分为新预测的VTP(novel)。这些候选蛋白与已知VTPs在GO功能注释上共享大量功能术语,也具有独特的功能属性。以H1N1为例,新预测的VTP候选蛋白在PPI网络中与已知VTPs有更高的直接互作倾向,参与已知VTP相关通路及多个新通路(部分已被文献验证)。对HIV-1候选蛋白的分析也发现了类似的富集模式,包括与癌症相关的通路,这可能解释了HIV-1感染者癌症风险升高的部分分子机制。对于被多种病毒靶向的蛋白(MVTPs),MultiVTP的预测性能优于对单病毒靶向蛋白(SVTPs)的预测。新预测的MVTPs与已知MVTPs一样,在PPI网络中具有更高的进化保守性和更关键的拓扑位置,其功能富集分析显示它们在转录调控和蛋白质运输等关键病毒生命周期过程中扮演重要角色。一些新预测的MVTP候选蛋白(如EMC8、HSP90AB2P)已通过文献验证为相关病毒的宿主依赖因子或治疗靶点。

在讨论与结论部分,研究人员总结了本研究的主要贡献和发现。本研究开发了一个基于图的深度学习框架,利用宿主蛋白的固有信息识别VTPs。通过分析,揭示了全局网络拓扑属性在区分VTPs与非VTPs中的关键作用。提出的MultiVTP模型结合了图表示学习与多模态数据,消融实验证实了图结构特征和所设计模块(Graphormer和PLE)的关键作用。MultiVTP在多种实验设置下均优于现有的VTP和PPI预测模型,尤其是在训练数据稀缺时优势明显。应用于人类蛋白质组,能够系统识别与单种或多种病毒相关的新宿主蛋白。尽管存在局限性(如宿主-病毒相互作用数据库的不完整性可能导致假阴性样本,模型目前仅限于判断宿主蛋白是否为病毒靶标),但研究人员通过数据整合和模型扩展(如预测宿主依赖因子和宿主限制因子)进行了初步验证。未来工作可考虑整合蛋白质结构信息、引入更先进的序列编码和特征融合机制、处理标签不平衡问题、以及将该框架扩展至其他病原体(如细菌和真菌)的研究。总之,MultiVTP为探索跨多种病毒的VTPs提供了一个有用的工具,有助于增强对宿主-病毒相互作用机制的理解。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号