pHLA-Bi-Mamba：一种通用深度学习模型，用于预测肽与HLA-I结合的亲和力以及洗脱后的配体

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biochemical and Biophysical Research Communications》：pHLA-Bi-Mamba: A pan-specific deep learning model for peptide-HLA-Ⅰ binding affinity and eluted ligand prediction

【字体：大中小】 时间：2026年04月13日 来源：Biochemical and Biophysical Research Communications 2.2

编辑推荐：

　　肽-HLA-I结合预测模型pHLA-Bi-Mamba采用双向Mamba架构，显著提升预测性能并支持可解释性归因，R2达0.220，AUPRC提高20%，代码数据已开源。

姚轩|黄强|杨倩婷|曹英银|赵娟娟|齐芙蓉|张铮

中国广东省深圳市南方科技大学医学院第二附属医院深圳市第三人民医院传染病国家临床研究中心肝病研究所，邮编518112

摘要

人类白细胞抗原I类（HLA-I）分子在免疫监视中起着核心作用，准确预测肽与HLA-I的结合对于发现免疫靶点和个性化免疫治疗至关重要。尽管基于Transformer的深度学习模型在序列表示学习方面取得了进展，但它们通常受到二次计算复杂性的限制。相比之下，双向Mamba架构整合了前向和后向的上下文信息，能够更有效地模拟肽结合槽内的全局序列依赖性和空间约束。由于肽-MHC结合受到全局物理化学相互作用的影响——其中N端和C端残基经常在热力学上相互耦合——这种双向上下文特别有利。在这里，我们提出了pHLA-Bi-Mamba，这是一个泛特异性模型，它利用基于双向Mamba的蛋白质语言模型来预测肽-HLA-I对的结合亲和力和洗脱配体。pHLA-Bi-Mamba在最近的基准数据集上取得了先进的性能，同时能够为关键的肽和HLA位置提供可解释的归属。在结合亲和力预测方面，该模型的R2值为0.220，显著优于NetMHCpan-4.1（0.107）和MHCflurry-2.0（-0.004）。在洗脱配体预测方面，它在独立的IEDB测试集上将精确度-召回率曲线下面积（AUPRC）提高了至少20%。据我们所知，这是首次将双向Mamba架构应用于肽-HLA-I结合预测。pHLA-Bi-Mamba为大规模免疫表位筛选提供了一个高效的工具，特别是在高度不平衡的数据集中识别罕见结合物。源代码和策划的数据集可在GitHub上找到：https://github.com/ImmunoInformatics-dev/pHLA-Bi-Mamba

引言

人类白细胞抗原I类（HLA-I）分子在细胞表面呈现内源性肽（通常为8-11个氨基酸），使细胞毒性T淋巴细胞（CTL）能够消除病毒感染的细胞和恶性细胞1, 2, 3，因此对免疫监视至关重要。因此，肽-HLA-I（pHLA-I）复合物的形成是适应性免疫中的一个关键检查点。HLA-I的高度多态性抗原结合槽通过C端、N端和中心位置的特定锚定残基来容纳肽，从而建立精细调节的、等位基因特异性的相互作用[4]。每个人通常表达六个经典的HLA-I等位基因（HLA-A、-B、-C），全球已鉴定出超过30,000个HLA等位基因[5]。因此，准确预测给定HLA等位基因的肽呈递对于免疫靶点筛选和个性化免疫治疗的设计至关重要。

已经开发了几种计算方法来预测肽-MHC结合[6]。方法上，这些方法大致可以分为基于评分的方法和基于机器学习的方法[7]。基于评分的方法依赖于统计或基于基序的评分函数，如SYFPEITHI[3]、RANKPEP[8]、PromPDD[9]和MixMHCpred[10]中所实现的。相比之下，机器学习方法利用神经网络来捕捉MHC分子和肽之间的潜在相互作用模式。代表性模型包括NetMHCpan[11]、MHCflurry[12]、NetMHC[13]、MHCnuggets[14]、HLAthena[15]、DeepMHCI[16]、TranspHLA[17]和BigMHC[18]。这些工具通常在两种主要数据类型上进行训练：结合亲和力（BA）测量和质谱衍生的洗脱配体（EL）数据[19]。

深度学习的迅速发展改变了计算生物学，使得从小分子活性预测[20]到蛋白质结构预测等任务取得了突破，例如AlphaFold2[21]和ESM[22]。2024年，Gu等人引入了Mamba[23]，这是一种旨在解决Transformer二次计算复杂性的状态空间模型架构。通过利用选择性的状态空间机制，Mamba实现了与序列长度成线性比例的扩展，同时保持了强大的长距离依赖性建模，使其特别适合生物序列分析。自引入以来，基于Mamba的架构已被应用于多个领域，包括大型语言模型、计算机视觉中的Vision Mamba[24]、基因组学中的EVO[25]和HyenaDNA[26]以及蛋白质建模中的PTM-Mamba[27]。这些研究共同突显了Mamba作为长距离序列建模高效框架的多功能性，并激发了其在肽-HLA结合预测中的应用。

尽管有这些优势，传统的Mamba架构以单向方式运行，可能限制了它们表示肽-HLA相互作用背后全局物理化学约束的能力，其中N端和C端残基经常在热力学上相互耦合。为了解决这一限制，我们将双向Mamba模块整合到一个泛等位基因肽-HLA框架中。这种设计使模型能够捕捉连接肽-HLA序列中的更丰富的上下文依赖性，并通过蛋白质语言建模范式学习潜在的相互作用特征。由此产生的模型pHLA-Bi-Mamba有两种配置——pHLA-Bi-Mamba-BA和pHLA-Bi-Mamba-EL——分别基于结合亲和力和洗脱配体数据进行训练，以预测结合强度和抗原呈递。这两种配置采用相同的架构和训练框架，仅在于训练数据的组成不同。这种设计强调了所提出框架在相关肽-HLA预测任务中的适应性和泛化能力。

部分摘录

pHLA-Bi-Mamba架构简介

pHLA-Bi-Mamba是一个基于序列的模型，可以预测肽-HLA-I对的结合亲和力（pHLA-Bi-Mamba-BA）和结合概率（pHLA-Bi-Mamba-EL）。整体架构如图1所示，包括三个主要组成部分：（1）嵌入模块，（2）双向Mamba模块，以及（3）预测头。这种设计使模型能够捕捉肽和HLA序列之间的上下文依赖性，并提取有信息的潜在特征。

讨论

Mamba在计算领域得到了越来越多的应用，包括图像分类[24]和图像分割[32]，证明了它能够克服Transformer的关键限制——尤其是自注意力的二次计算成本[23]。得益于其选择性的状态空间机制，Mamba能够高效地捕捉全局上下文，并以线性复杂性模拟复杂的时空依赖性[33]，使其特别适合长序列分析。

数据收集和策划

负样本生成。负样本是通过根据抗原肽的长度对源蛋白进行虚拟切割而生成的。未被已知抗原配体对应的切割肽与相应抗原肽的HLA等位基因配对，并被视为负样本。这种策略产生的肽与给定HLA等位基因结合的概率非常低，已被广泛用于构建负pHLA数据集[35]。

结合亲和力训练

结论

在这项工作中，我们开发了一个基于双向Mamba的框架pHLA-Bi-Mamba，用于预测肽-HLA-I的结合亲和力（pHLA-Bi-Mamba-BA）和抗原呈递概率（pHLA-Bi-Mamba-EL）。pHLA-Bi-Mamba在正样本上表现出优异的性能，如其PRAUC和PPVn指标所示，突显了其在表位筛选中的高灵敏度和实际效用。突变扫描和基于SHAP的归属分析进一步证实了pHLA-Bi-Mamba的准确性

CRediT作者贡献声明

张铮：撰写——审阅与编辑、资金获取、概念化。黄强：撰写——原始草稿、验证、数据策划。姚轩：撰写——原始草稿、方法论、数据策划。曹英银：数据策划。杨倩婷：数据策划。齐芙蓉：撰写——审阅与编辑、方法论、概念化。赵娟娟：数据策划

数据可用性声明

用于模型训练和测试的数据集以及代码均可在GitHub上找到：https://github.com/ImmunoInformatics-dev/pHLA-Bi-Mamba

利益冲突

所有作者均声明没有竞争利益。

资助

得到了中国国家自然科学基金（92469302, 82025022）；中国国家重点研发计划（项目编号2023YFC2306400）；深圳科技计划（项目编号ZDSYS20210623091810030；KQTD20200909113758004）；广州实验室研发计划（项目编号SRPG22-006）；深圳结核病临床研究中心（项目编号20210617141509001）；深圳市科技创新委员会（项目编号

利益冲突声明

所有作者均声明没有竞争利益。

致谢

本工作得到了南方科技大学的计算科学和工程中心的支持，特别是对杨宇成和田琳的支持。

联系信箱：

粤ICP备09063491号

摘要

引言