MoE-TCR：一种基于专家混合模型的泛特异性TCR-表位结合预测框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：MoE-TCR: Mixture-of-experts framework for pan-specific TCR-epitope binding prediction

【字体：大中小】 时间：2026年04月29日 来源：Pattern Recognition 7.6

编辑推荐：

　　魏曲|李金星|何振涛|王嘉仪|朱善峰复旦大学脑启发智能科学技术研究所，上海，200433，中国 **摘要** 准确预测TCR-表位相互作用对于推进免疫疗法和疫苗开发至关重要。目前的模型分为两类：表位特异性模型，虽然准确度高但泛化能力有限；以及泛特异性模型，虽然适用

　　魏曲|李金星|何振涛|王嘉仪|朱善峰
复旦大学脑启发智能科学技术研究所，上海，200433，中国

**摘要**
准确预测TCR-表位相互作用对于推进免疫疗法和疫苗开发至关重要。目前的模型分为两类：表位特异性模型，虽然准确度高但泛化能力有限；以及泛特异性模型，虽然适用范围更广，但往往精度较低。为了解决这一限制，我们引入了MoE-TCR框架，这是一个顶层稀疏门控的专家混合模型，它将多个泛特异性模型整合为专门的专家。此外，我们还提出了TCR-表位交叉网络（TECC），这是一种基于交互作用的架构，利用交叉注意力在二维空间表示中捕捉复杂的氨基酸对相互作用。通过在MoE-TCR框架内整合四种不同的网络架构，我们展示了MoE-TCR框架的强大灵活性，并显著提升了这些基础方法的性能。在包括IMMREP22在内的基准数据集上的全面评估表明，MoE-TCR的表现显著优于现有方法，平均AUC提高了6.6%。进一步分析MoE机制发现，稀疏的专家权重分配可以减少对个别专家的过度依赖，从而增强模型的泛化能力。需要注意的是，对于未见过的表位预测，整体性能仍接近随机水平，这突显了这项任务的巨大挑战。

**引言**
T细胞受体（TCR）是适应性免疫系统的关键组成部分，负责识别并结合由主要组织相容性复合体（MHC）呈现的特定表位[1]。TCR是由α链和β链组成的异二聚体，每种链通过称为V(D)J重组的过程贡献于受体的多样性和特异性。这一重组过程产生了能够识别多种抗原的庞大TCR库。TCR的抗原识别能力核心是互补决定区（CDRs），特别是CDR1、CDR2和CDR3[2]。这些区域构成了抗原结合位点，其中CDR3最具变异性，对确定受体的特异性至关重要[3]。CDRs提供的多样性使TCR能够结合广泛的表位[4]，因此研究TCR-表位结合对于理解免疫反应和开发有效的免疫疗法和疫苗至关重要。对TCR-表位相互作用的了解有助于识别相关的T细胞群体，从而促进靶向治疗策略的制定和疫苗设计[5][6]。

近年来，利用机器学习和生物信息学的进步，开发了许多预测TCR-表位结合的方法[7][8]。这些方法可以根据其建模和训练方法进行分类：表位特异性[9]和泛特异性[10][11]。表位特异性模型旨在预测特定表位的相互作用，它们具有高准确性，但对其他表位的泛化能力有限[12][13]。另一方面，泛特异性模型旨在跨多个表位进行泛化，具有更高的泛化潜力[14][15]。泛特异性建模在相关领域（如MHC-I[16]和MHC-II结合预测[17]）中取得了显著成功。在这些领域，泛特异性模型受益于数千个MHC分子之间的高序列相似性，这些分子可以被分组为具有相似结合偏好的各种HLA亚型[18]，从而增强了模型的鲁棒性。在TCR-表位结合领域，也开发了诸如NetTCR-2.2[11]和MixTCRpred[9]等泛特异性模型，并显示出希望。这些模型还共同假设显示相似序列模式的TCR识别相同的表位，并且这些知识可以在不同表位之间共享。然而，这些泛特异性模型并没有直接考虑TCR与表位之间的相互作用，而是依赖于一维序列空间中的特征串联，而且它们并没有一致性地优于表位特异性模型[19]。例如，在IMMREP22[21]基准测试中表现最好的模型[20]，如TCRGP[22]和TCRex[23]，都是表位特异性的[24][25]。这种差异主要是由于可用数据的多样性和规模有限，限制了泛特异性模型的有效性[11]。

为了弥合表位特异性模型的高准确性和泛特异性模型的高泛化能力之间的差距，我们提出了MoE-TCR框架。该框架旨在保留表位特异性模型的精度，同时实现泛特异性模型的泛化潜力。MoE-TCR框架是一个顶层稀疏门控的专家混合模型[26]，旨在改进TCR-表位结合预测。这种方法利用一个泛特异性模型作为多个专家来共同预测TCR和表位之间的结合相互作用，有效解决了当前方法的局限性。MoE-TCR框架能够根据表位自适应选择前k个专家，并为这些专家分配权重，以实现更强大和准确的预测系统。在MoE框架中引入的平衡损失机制[26]有效缓解了专家退化问题，即在动态训练过程中只有少数专家占主导地位，而其他专家则变得不活跃。这一改进显著增强了MoE框架的实际效用和可扩展性[27]。更重要的是，这种设计的灵活性允许MoE-TCR框架将任何泛特异性模型作为专家纳入其中，从而进一步提高其性能和适用性。

除了MoE-TCR框架外，我们还提出了TCR-表位交叉网络（TECC），这是一种新颖的基于交互作用的架构，旨在模拟TCR和表位之间的细粒度相互作用。TECC利用交叉注意力[28]在二维空间表示中编码所有氨基酸对相互作用，能够捕捉线性模型中经常被忽略的复杂依赖关系。这种方法扩展了泛特异性模型的表达能力，提供了对TCR-表位相互作用的更详细和准确的理解。为了展示MoE-TCR框架的灵活性和泛化能力，我们将四种不同的网络架构作为专家模型进行整合：基于1D-CNN的NetTCR-2.2[29]、基于Transformer的MixTCRpred[30]、基于滑动注意力的PISTE[12]以及提出的TECC。这些模型在MoE-TCR框架内结合使用，展示了其利用不同架构优势的能力，并实现了比现有方法更优越的预测性能。

我们对MoE-TCR框架在多个基准数据集上进行了全面评估，证明了其在提升各种泛特异性模型性能方面的有效性。例如，在IMMREP22基准测试中，MoE-NetTCR以平均AUC 0.850的成绩获得第一名，比标准NetTCR提高了6.6%。此外，在IMMREP22的去重复版本[11]和五折交叉验证实验中，MoE-TECC也获得了第一名。然而，留一法（LOO）实验表明，MoE像现有模型一样，在准确预测未见过的表位方面存在困难，这突显了真正泛特异性泛化的挑战。最后，我们分析了MoE机制，阐明了稀疏专家权重分配可以最大化其效率。

**问题定义**
给定一个样本（TCR, 表位），任务是以二分类的方式预测表位和TCR是否结合。TCR由α链和β链的CDR（互补决定区）序列表示，具体来说是每个链的CDR1、CDR2和CDR3区域。因此，TCR序列集表示为{cdrcr∣c∈(α,β),r∈(1,2,3)}，表位序列表示为e。这些子序列从根本上决定了TCR和表位之间的相互作用。

**数据集**
我们使用了三个精心策划的公共基准数据集（CV2023、IMMREP22和IMMREP22?）来训练模型并评估每个基础专家模型以及在MoE框架下的方法性能：CV2023用于嵌套五折交叉验证训练和评估；IMMREP22和IMMREP22?用于在公共竞赛训练集和独立测试集上评估模型。样本在表位上的分布如图A1所示。

**结果**
为了确保基线泛特异性模型和MoE-TCR框架之间的公平比较，我们在CV2023、IMMREP22和IMMREP22?数据集上实施了集成学习策略。基线模型使用40个独立初始化的集成模型，具有平均预测值，而MoE-TCR框架结合了20个具有top-k = 2动态专家选择的集成模型。这种配置保证了推理过程中适当的参数激活规模：基线模型激活20×基础参数。

**结论**
在这项研究中，我们引入了MoE-TCR框架，这是一种专家混合模型，旨在通过整合多种泛特异性方法来提高TCR-表位结合的预测性能。我们在包括CV2023、IMMREP22和IMMREP22?在内的基准数据集上的全面评估表明，MoE-TCR显著提高了预测性能，达到了最先进的结果。此外，我们还对MoE机制进行了详细分析，并通过消融实验……

**作者贡献声明**
魏曲：撰写——原始草稿、软件、形式分析。
李金星：撰写——审阅与编辑、验证、调查。
何振涛：方法论、验证、可视化、撰写——审阅与编辑。
王嘉仪：撰写——审阅与编辑、验证、调查。
朱善峰：监督、项目管理、资金获取。

**利益冲突声明**
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

**致谢**
本工作得到了国家自然科学基金[编号62272105]、上海市科技重大项目[编号2018SHZDZX01]、ZJ实验室和上海脑科学与脑启发技术中心、111项目[编号B18015]对S.Z.和W.Q.的支持。

联系信箱：

粤ICP备09063491号

热点排行