编辑推荐:
本研究针对抗体互补决定区(CDR)结构多样性表征不足、现有方法覆盖率有限且难以整合至蛋白质基础模型等挑战,开发了名为Igloo的多模态抗体环路分词器。该模型通过对比学习框架融合序列与骨架二面角信息,实现了CDR环路的精准结构检索、亲和力预测提升、可控序列生成及高通量文库筛选优化。实验表明,Igloo在H3环路相似性检索中性能提升6.1%,所构建的IglooLM模型在8/10的抗体-抗原靶点上优于基准模型,并能零-shot富集实验验证的HER2结合子1.9倍。该工作为抗体理性设计提供了新一代结构感知的计算工具。
抗体是免疫系统中的关键蛋白质,也是日益重要的治疗药物。其特异性识别抗原的能力主要依赖于可变区中的互补决定区(CDR)——几段柔性的环状结构。这些环,尤其是重链的第三个互补决定区(H3),在序列和结构上呈现出极高的多样性,直接决定了抗体的结合特异性和亲和力。因此,精准地表征和设计CDR环路,是新型抗体药物研发的核心。然而,传统的表征方法(如基于二面角的“经典构象”聚类)面临三大局限:首先,覆盖率不足,大量环路(尤其是H3)无法被归入已知类别;其次,现有方法仅考虑骨架坐标或二面角,忽略了序列信息;最后,这些离散的类别难以无缝嵌入到现代基于Transformer的蛋白质基础模型中进行端到端的学习与生成。
为此,研究人员在《mAbs》上发表了题为“Tokenizing loops of antibodies”的研究,引入了Igloo(ImmunoGlobulin LOOp Tokenizer)——一个专为抗体环路设计的多模态分词器。它创新性地将环路的氨基酸序列和骨架二面角(φ, ψ, ω)共同编码为一个连续的表示(Token)。与在氨基酸残基层面进行分词的主流方法不同,Igloo在“子结构环”层面进行操作,更符合抗体的功能模块化组织。其核心训练目标是对比学习,旨在使具有相似骨架二面角的环路在潜在空间中彼此靠近。
为了开展这项研究,团队整合了来自结构数据库(SAbDab, STCRDab)的约10.8万个实验解析的环路结构,以及来自Observed Antibody Space(OAS)配对序列经Ibex模型预测的约70万个计算模拟环路结构,构成了大规模训练集。研究采用了多模态掩码重建、基于二面角距离的对比学习和码本学习三大自监督训练目标。基于训练好的Igloo分词器,研究者进一步构建了两种蛋白质语言模型:仅集成环路分类Token的IglooLM,以及同时集成环路Token和每个残基多模态Token的IglooALM,以探索不同粒度结构信息的应用价值。
研究结果
- 1.
Igloo实现高效的相似环路结构检索
在从未见过的测试集上,评估Igloo从大型结构数据库中检索与查询环路结构相似的环路的能力。结果显示,在检索二面角距离D < 0.47(对应平均二面角差异约40°)的相似环路时,Igloo的性能优于所有基线模型。对于最具挑战性的H3环路,其Precision@20达到0.402,相比之前最佳模型(基于氨基酸的VQVAE编码器)提升了6.1%。这表明Igloo学习到的表示能有效捕获环路的结构相似性。
- 2.
Igloo分词器能够复现已知的经典构象聚类
尽管是自监督训练,未使用任何经典簇标签,Igloo学习到的离散码本(Quantized Token)所诱导的聚类与Kelow等人定义的经典构象簇具有高度一致性。评估表明,其对SAbDab中90.6%的环路成功复现了已知的经典构象分配,且诱导的聚类在环路类型和长度上都具有很高的纯度(分别达0.983和0.965),证明了其表征的生物学合理性。
- 3.
集成Igloo Token提升抗体亲和力预测
在AbBiBench基准测试的10个抗体-抗原结合亲和力预测任务中,集成了Igloo环路Token的IglooLM模型,在8个任务上超越了其基础模型IgBert。平均而言,其性能与参数量7倍于自身的ESM-2 (3B)模型相当,甚至更优。这证明了将环路的整体构象信息作为特殊Token引入蛋白质语言模型,能够有效提升模型对功能细微变化(如点突变)的感知能力。
- 4.
IglooALM实现结构可控的抗体环路生成
当提供目标环路的骨架结构和上下文序列,但掩码其氨基酸序列时,IglooALM能够生成在保持结构一致性的前提下,序列高度多样化的新环路。在针对SARS-CoV-2抗体(PDB: 7TCQ)的H3环重新设计中,生成的环路平均序列同一性仅为0.27,但与原始环路的RMSD小于1 ?。相比当前最先进的抗体逆折叠模型(AbMPNN, AntiFold),IglooALM能在更宽的序列差异性范围内,生成结构一致性(scRMSD)更高的环路。
- 5.
利用Igloo Token零-shot富集功能性抗体变体
在一个针对HER2靶点、包含3.8万多个独特H3环路的实验验证文库中,研究者展示了Igloo在“命中到先导”优化中的潜力。仅选择那些与“种子”结合剂共享相同Igloo离散Token的环路,可以将实验验证的结合剂比例从基线库的29.1%富集到55.3%(1.9倍富集)。该方法计算高效,处理整个文库仅需约10分钟,为大规模抗体文库的优先级排序提供了快速、可扩展的工具。
结论与意义
本研究表明,Igloo通过引入多模态的环路层面分词,成功桥接了抗体结构的高层组织(经典构象)与底层氨基酸残基表征之间的鸿沟。它克服了现有经典聚类方法覆盖率有限、缺乏序列信息、难以整合进深度学习模型的缺点。Igloo不仅在结构检索和构象聚类识别上达到了先进水平,其分词能力还能无缝增强蛋白质语言模型(如提升亲和力预测)和赋能生成式模型(如可控环路设计)。更重要的是,其离散Token为高通量抗体工程的快速、零-shot筛选提供了新范式。这项工作标志着抗体计算设计向更精细、更具结构意识的方向迈出了重要一步,为开发更高效、更智能的抗体发现与优化平台奠定了方法论基础。