基于Transformer的泛特异性MHC-I肽结合预测模型TransBindpMHCI：助力肿瘤新抗原鉴定与个性化疫苗设计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BMC Bioinformatics》：TransBindpMHCI: a transformer-based model for pan-specific MHC-I peptide binding prediction

【字体：大中小】 时间：2026年04月22日 来源：BMC Bioinformatics 3.3

编辑推荐：

　　肿瘤新抗原的鉴定因数据规模、预测精度和跨物种兼容性等限制而面临挑战。为此，研究人员开发了基于Transformer的泛特异性MHC-I肽结合预测模型TransBindpMHCI。该模型利用140余万条质谱筛选的MHC呈递肽进行建模，直接捕获肽生成与呈递的真实过程。其双层Transformer编码器架构显著提升了肽-MHC结合模式的特征提取能力，同时降低了计算复杂度。模型还将预测范围扩展至8-15个氨基酸的肽段，并实现了对人类和小鼠MHC-I分子的跨物种兼容。综合评估表明，TransBindpMHCI在准确性、计算效率和泛化能力上均优于现有方法，能鉴定出免疫原性更强的肿瘤新抗原，为推进肿瘤新抗原验证与个性化疫苗设计带来了重要希望。

在癌症免疫治疗领域，肿瘤细胞表面呈现的新抗原（neoantigens）是激活细胞毒性T细胞、引发特异性免疫反应的关键“信号旗”。这些新抗原通过人类白细胞抗原（Human Leukocyte Antigen, HLA）分子，或者说更广泛意义上的主要组织相容性复合体（Major Histocompatibility Complex, MHC）分子，展示给免疫系统。因此，精准预测哪些肽段能够与特定的MHC分子结合并被呈递，是鉴定有效肿瘤新抗原、开发个性化癌症疫苗和免疫疗法的基石。然而，这条道路并非坦途。现有方法的预测准确性有待提升，其依赖的数据规模往往有限，更棘手的是，许多模型缺乏跨物种的兼容性，这极大地限制了临床前研究（例如在小鼠模型中进行验证）向临床转化的效率。面对数据规模、预测精度与跨物种兼容性这三大挑战，研究人员亟需一款更强大、更通用的预测工具。

为此，一项名为《TransBindpMHCI: a transformer-based model for pan-specific MHC-I peptide binding prediction》的研究在《BMC Bioinformatics》上发表。研究者们开发了TransBindpMHCI，一个基于Transformer架构的、泛特异性的MHC-I肽结合预测模型。他们究竟是如何攻克上述难题的呢？

本研究采用了几个关键的技术方法。首先是大规模质谱数据建模：研究团队收集并使用了总计1,404,492条经过质谱（Mass Spectrometry）筛选确认的MHC呈递肽序列作为训练和测试数据，这为模型学习真实的肽段生成与呈递生物学过程提供了坚实基础。其次是创新的模型架构：TransBindpMHCI的核心是一个双层Transformer编码器（dual-tier transformer encoder），该设计专门用于高效提取肽序列和MHC分子序列之间的复杂相互作用特征，同时优化了计算效率。最后是扩展的预测范围与跨物种验证：模型将预测的肽段长度范围扩展至8到15个氨基酸，并且使用来自人类和小鼠的MHC-I分子数据进行训练与测试，从而实现了跨物种兼容性（cross-species compatibility）。研究队列的数据来源包括了公开质谱数据库中的大量人类和小鼠MHC配体数据。

研究结果通过多个维度展示了TransBindpMHCI的卓越性能。

•
模型架构与特征学习：论文证实，所采用的双层Transformer编码器架构能够有效捕捉肽-MHC结合的关键模式，其注意力机制（attention mechanism）帮助模型聚焦于肽段和MHC分子结合沟（binding groove）中重要的氨基酸残基。
•
预测性能评估：在多个独立的测试集上，TransBindpMHCI在预测肽段与MHC-I分子结合的准确性（accuracy）和区分能力（如AUC值）方面，均显著优于其他现有的主流预测工具（如NetMHCpan, MHCflurry等）。这证明了其卓越的泛化能力（generalizability）。
•
长度扩展与跨物种能力：模型成功将可靠预测的范围从常见的9-10个氨基酸肽段，扩展到了8-15个氨基酸，覆盖了更广泛的潜在新抗原。更重要的是，其在人类和小鼠MHC-I分子上的预测表现一致优秀，首次实现了真正的跨物种高性能预测，为利用小鼠模型进行新抗原疫苗的临床前评估扫清了关键技术障碍。
•
在新抗原鉴定中的应用：通过模拟肿瘤突变肽段的呈递预测，TransBindpMHCI能够鉴定出免疫原性更强、更可能被T细胞识别的潜在新抗原。与现有方法相比，其预测出的候选新抗原在后续的免疫原性分析中显示出更高的潜力。

在结论与讨论部分，研究者们强调了TransBindpMHCI的多重重要意义。首先，在方法论上，该研究证明了基于Transformer的深度学习框架在生物序列特征提取，特别是肽-MHC相互作用这种复杂模式学习中的强大优势。其次，在应用价值上，TransBindpMHCI解决了现有工具在数据规模、精度和跨物种兼容性上的局限，其高性能和泛化能力使其成为一个更为可靠的生物信息学工具。最终，在转化医学层面，这项研究为肿瘤新抗原的鉴定提供了更强大的计算武器。能够更准确、更快速地筛选出高免疫原性的新抗原，将直接加速个性化肿瘤疫苗的设计与开发流程，并提升临床前研究的效率与可靠性。因此，TransBindpMHCI不仅是一个技术模型的进步，更是推动癌症免疫治疗从基础研究走向更广泛应用的重要助力。

联系信箱：

粤ICP备09063491号

热点排行