《Frontiers in Bioinformatics》:AI-driven discovery in protein science for immunology and infectious disease research
编辑推荐:
这篇综述深度解析了生成式人工智能(Generative AI, GenAI)和大语言模型(Large Language Models, LLMs)如何革新免疫学和传染病研究。文章系统梳理了AI在抗体设计、疫苗开发、抗原-抗体/T细胞受体(TCR)结合预测、新药发现及疾病监测等核心领域的应用实例与工具(如AbGPT、AlphaFold、EVEscape等),并探讨了其在相关生物医学领域(如蛋白质结构预测、多组学分析)的推动作用。综述指出,尽管这些AI工具展现出巨大潜力,但多数仍需实验验证,并强调了标准化评估与数字孪生(Digital Twins)等未来方向的重要性。
从假设驱动到AI驱动的科研范式演进
科学研究历经了假设驱动、数据驱动,如今正迈向AI驱动的新范式。这一演进在免疫学、疫苗学和传染病研究领域尤为显著。传统假设驱动研究基于已有理论框架设计实验,而数据驱动研究则利用高通量技术产生的组学大数据进行模式识别。当前,以生成式人工智能(Generative AI, GenAI)和大语言模型(Large Language Models, LLMs)为代表的AI驱动研究,不仅能分析数据,更能从海量生物序列、结构和文献中学习,进而生成新的科学内容,如提出新假设、设计抗体序列、预测抗原/表位乃至提出新型疫苗候选物。这三种范式并非相互排斥,AI驱动的方法通过扩大探索能力和加速迭代,正与前者深度融合,有望缩短研发周期、发现意外生物学见解,并让预测建模更具适应性和可扩展性。
AI在免疫学、疫苗学与传染病研究中的驱动作用
AI通过其数据整合、模式识别和预测建模能力,正日益推动免疫学发现。它利用多组学数据集支持免疫应答建模、疾病轨迹预测和治疗靶点识别。在疫苗和免疫疗法开发中,AI框架已被用于预测B细胞和T细胞表位、分析病毒进化并优先筛选候选疫苗抗原。一些平台基于全球共享流感数据倡议(GISAID)等大型病原体基因组库,能够实时监测可能影响免疫识别的病毒突变,从而为疫苗重新设计和疫情防控提供信息。此外,模型还能预测患者特异性免疫特征,指导个性化免疫治疗策略。
抗体设计与疫苗开发
GenAI与抗体设计的结合,通过加速抗体序列的生成、优化和评估,为免疫学和治疗开发开辟了新方向。例如,抗体生成预训练Transformer(AbGPT)模型据报道能够从头(de novo)设计靶向特定抗原的抗体序列。超越简单序列生成,近期框架通过编码器-解码器架构融入了结构约束和重链/轻链配对相容性。同时,对数似然分数等概率评分指标可用于优先筛选具有更高预测生物学合理性的候选序列。这些工具为探索抗体库多样性和成熟度提供了新途径。
AI也被应用于疫苗开发,特别是在预测抗原性和免疫逃逸潜力方面。例如,EVEscape工具通过分析病毒突变景观,旨在预测免疫逃逸变体在流行群体中出现,据称能预测严重急性呼吸综合征冠状病毒2(SARS-CoV-2)受体结合域(RBD)中66%的高频突变。而VenusVaccine模型则采用双重注意力架构来预测抗原免疫原性,并指导跨不同病原体的疫苗靶点选择,对细菌和病毒的预测准确率分别达到84.5%和91.4%。语言模型还被用于评估抗体对流感血凝素(HA)蛋白的活性,通过提示哪些变异可能降低疫苗效力来为疫情防控提供支持。
T细胞受体-表位-MHC结合预测
准确预测T细胞受体(TCR)-表位-MHC结合是疫苗开发和T细胞免疫疗法的基础。传统方法如NetMHCpan-4.1利用机器学习框架预测肽段与MHC分子的结合亲和力,但其支持的MHC等位基因数量有限。AI驱动的方法通过直接从大规模结构和序列数据集中学习,以更快的速度、更高的准确性和更强的泛化能力预测TCR-表位-MHC相互作用,有可能克服现有方法的等位基因覆盖和通量限制。
例如,TCRmodel2能够快速准确地(约80%达到CAPRI中等精度或更好)对TCR-表位-MHC复合物进行建模。生成模型,如生成性抗原肽重建(GRIP)模型,可预测TCR-表位相互作用,支持T细胞癌症免疫疗法的进展。另一个生成模型tcrLM通过从蛋白质序列中学习来预测TCR-表位结合特异性(在外部COVID-19数据集上AUROC为0.94)。此外,DapPep采用领域自适应学习进行肽段不可知预测(对未见肽段的AUROC = 0.82)。EpicPred利用基于注意力的模型来推断与表位结合TCR相关的表型(平均AUROC为0.80),而TCR-H为未见TCR-表位结合数据集提供可解释的预测。
抗原-抗体结合预测
多种AI模型已被引入用于预测抗原-抗体相互作用,显示出支持免疫疗法开发和诊断的潜力,尽管多数仍处于早期阶段。HelixFold-Multimer改善了抗体-抗原复合物的多聚体结构预测。IgGM是一种生成模型,可通过学习抗原特异性约束,实现功能抗体和纳米抗体的从头(de novo)设计。S2ALM是一个序列-结构预训练大语言模型,可捕获复杂的抗体特征以改进互补位(paratope)和亲和力预测。
另一组模型,如AntiBinder,采用混合编码和注意力机制来预测结合界面。GraphEPN使用图神经网络整合空间特征以改进B细胞表位预测。SEMA 2.0通过AI驱动的网络平台支持构象B细胞表位预测。MAGE使用微调后的蛋白质语言模型(PLM)生成无需模板的靶向特异性人抗体序列。此外,Docking Score ML通过改进抗原-抗体亲和力评分,支持基于对接的虚拟筛选。
传染病监测与疫情防控
有效的传染病监测是全球健康的基石。AI通过整合生成建模、大语言模型和物理信息框架,正在改进监测方法学,以增强数据提取、预测精度和可解释性。先进的大语言模型在整合多面性流行病学数据集方面表现出卓越能力,实现了大流行轨迹的实时预测。生成架构如TagGAN改善了自动化数据标注,促进了可扩展且准确的监测数据集构建,这对于模型训练和验证至关重要。大语言模型已被用于实时流行病监测,通过提取细粒度的流行病学事件和综合异构数据流,从而在公共卫生危机期间改善态势感知和决策。
靶向治疗与新药发现
传统药物发现依赖于虚拟或高通量筛选以及分子动力学模拟,成本高、速度慢且成功率有限。GenAI通过生成对抗网络(GANs)、变分自编码器(VAEs)和基于Transformer的模型等架构,生成新的类药物分子,提供了替代方案。REINVENT、MolGPT等平台,以及Atomwise和Insilico Medicine,据报道加速了化学空间的探索并改善了药物-靶点相互作用的预测。早期案例包括针对以前“不可成药”靶点(如KRAS和SARS-CoV-2蛋白)的抑制剂设计。
在免疫学和传染病背景下,GenAI日益应用于治疗性抗体发现和优化。基于扩散的生成模型结合结构和进化约束来提出候选抗体,而人源化框架可以将非人抗体转化为临床可用抗体,且不牺牲结合亲和力。其他方法,包括检索增强扩散模型和概率评分方案,支持对最有可能在实验中成功的候选物进行优先排序。
疾病特异性AI模型
疾病特异性模型是传染病研究中的重要工具,它们提供了对病原体行为和宿主反应的更深入理解,并帮助根据每种疾病的独特特征定制疫苗接种和治疗策略。AI是构建疾病特异性计算模型的强大工具,可阐明病理生理机制、提高诊断精度和优化治疗干预。
生成框架GALILEO展示了AI驱动的化学空间扩展在快速、一次性高命中率识别新型抗病毒化合物中的应用,尽管这些输出仍是需要实验验证的计算预测,据报告对丙型肝炎病毒(HCV)和/或人冠状病毒229E有活性。GenAI与分子对接和分子动力学模拟的整合应用,已识别出针对结核分枝杆菌关键转录阻遏蛋白(如EthR)的新型抑制剂,强调了AI在抗菌药物开发中的作用,尽管仍处于计算机(in silico)概念验证阶段。此外,扩散引导的生成模型促进了HIV抑制分子的高效虚拟筛选,而GANs生成合成临床数据集以解决建模抗逆转录病毒疗法结果中发现的类别不平衡问题。
在癌症领域,疾病特异性AI模型在早期检测、预后判断和个性化治疗策略方面取得了进展。CancerLLM模型利用特定领域的生物医学语料库和临床数据集来优化预后准确性和治疗决策支持系统。Orion是一个多任务GenAI模型,通过分析循环孤儿非编码RNA(oncRNA),实现了高灵敏度的早期肺癌检测,增强了无创诊断方法。基于AI的个性化乳腺癌治疗规划系统,依据美国国家综合癌症网络(NCCN)指南,展示了数据驱动精准肿瘤学的潜力。临床、病理、放射学和转录组数据集的多模态整合,结合对比学习框架,推进了转移性癌症中生物标志物发现和免疫疗法疗效预测。
AI在相关生物医学领域的研究
免疫学和传染病研究的进展与结构生物学、组学、影像学和临床诊断等多个其他生物医学领域的进步紧密相连。GenAI和大语言模型的兴起不仅直接改变了免疫学、疫苗学和传染病研究,也加速了多个相关学科的发现。GenAI正在推动蛋白质结构预测、序列注释、多组学整合、生物医学图像分析和临床决策支持等领域的研究,所有这些都使免疫应答和病原体的研究更加精确和有效。
蛋白质结构与功能预测
蛋白质结构和功能预测的进展是免疫学和传染病研究的基础,因为它们能够识别抗原决定簇、免疫识别界面以及宿主-病原体相互作用的分子机制,直接为疫苗和免疫疗法设计提供信息。准确的结构预测对于绘制表位、设计治疗方法和靶向毒力因子至关重要。
深度学习模型如AlphaFold的引入是该研究领域的里程碑,它整合了进化、几何和隐式物理约束,在CASP竞赛中达到了接近实验的精度。其他工具,如RoseTTAFold和ESMFold,扩展了这些进展,而GenAI驱动的模型如ProteinMPNN和RFdiffusion现在能够以比传统流程更高的效率和多样性实现蛋白质的从头(de novo)设计。
此外,基于GenAI的语言模型拓宽了蛋白质注释和免疫学特异性预测的范围。ProteinBERT支持结构注释和生物物理表征,而衍生模型如TCR-BERT则专注于免疫受体特异性和B细胞表位预测。类似地,IgBERT和IgT5等模型解决了抗体库的复杂性,ProtTrans为功能推断提供通用嵌入,PLMSearch仅使用序列输入即可改进同源性检测。AI还增强了从头(de novo)肽段测序、推荐稳定突变以及预测化学-蛋白质相互作用。这些工具共同为蛋白质分析和工程提供了强大框架。
序列注释
准确的序列注释是免疫学和传染病研究的基础,它使得识别免疫相关基因、抗原区域、调控元件和功能基元成为可能,这对于理解病原体生物学和宿主免疫应答至关重要。GenAI有潜力通过以更高的准确性和最少的手动输入检测功能性DNA、RNA和蛋白质元件来加速这一过程。
例如,DeepRegFinder应用深度学习直接从原始数据中识别调控元件,据称优于传统的基于基序的策略。基于Transformer的模型,如BERT-CNN混合模型,已被应用于增强子检测,在识别调控序列方面表现出强大性能。类似地,DNABERT利用基因组预训练改进启动子预测和转录因子结合位点识别,而核苷酸特异性模型增强了RNA-蛋白质结合位点的预测。在空间转录组学中,图注意力网络整合多模态数据以定义空间域,为解释组织中的免疫反应提供了更丰富的背景。
多组学数据分析
整合基因组学、转录组学、蛋白质组学和代谢组学的多组学数据提供了生物系统的整体视图,但由于数据异质性和复杂性带来了重大挑战。GenAI是应对多组学数据分析中这些挑战的强大工具。
例如,生成对抗网络(GANs)已被应用于多组学整合,改进了数据协调和特征提取,同时解决了稀疏性和批次效应。类似地,基于深度学习的方法展示了整合和分析复杂组学数据集的能力,揭示了分子层面之间先前隐藏的关联,并提高了疾病分类的准确性。
AI驱动模型在处理缺失数据(多组学研究的常见问题)方面也发挥着关键作用。AI的最新进展利用插补技术重建不完整的数据集,提高了下游分析的可靠性。此外,还开发了AI驱动的框架来简化多组学工作流程,优化生物医学研究的特征选择和预测建模。
在临床背景下,AI驱动的多组学整合推进了生物标志物识别和疾病风险预测。通过将多组学与临床生物标志物相结合,机器学习模型增强了大型队列研究(如英国生物银行)的能力,以发现新的遗传关联并改进疾病分层。此外,AI改善了基于质谱的生物标志物发现,简化了临床相关蛋白质和代谢物的检测,用于精准医学应用。
AI驱动研究的其他新兴应用
除了上述应用,GenAI正在推动广泛的生物医学领域的创新,这些领域为免疫学和传染病研究提供了重要支持。一个重要领域是文献综述和假设生成,其中BioBERT、PubMedBERT和BioGPT等平台有助于自动化科学知识的处理和综合、提取新见解以及识别新兴研究主题。这些功能使研究人员能够更有效地浏览庞大的生物医学语料库,从而加速发现。
另一个快速发展的应用是单细胞转录组学,其中scVIC和siVAE等深度生成方法改进了单细胞RNA测序与染色质可及性数据的聚类、分类和整合,为免疫异质性、调控机制和宿主-病原体相互作用提供了新视角。同时,AI驱动的框架显示出重塑合成生物学和基因组工程的潜力。DNA-Diffusion和RFdiffusion等生成模型可以从头(de novo)设计调控元件和蛋白质,而DeepCRISPR和GuideScan2等工具有助于提高基于CRISPR干预的准确性。
与此同时,AI驱动的成像正在成为生物医学研究中一个有前景的工具。机器学习的最新进展使得深度学习框架能够增强组织病理学解释,为组织异常提供更一致和客观的分析。Celldetective等工具提取时空细胞特征,而BiomedParse等基础模型和专门的病理学AI系统简化了分割,提高了疾病分类的预测准确性。GenAI通过合成逼真的生物医学图像以扩充训练数据集,并支持从减少的临床输入(例如从低剂量X射线重建3D结构)进行成像,进一步做出贡献。跨模态工具如MediSyn支持文本引导的图像生成,而Slideflow等平台为数字病理学带来了可扩展的实时分析。这些工具共同为生物医学成像工作流程、诊断精度以及免疫相关和传染病发现设立了新标准。
数字孪生:免疫学与传染病中的预测建模
数字孪生(Digital Twins, DTs)是物理系统的动态虚拟表示,持续整合其现实世界对应物的数据,以实时模拟、监测和预测性能。源自工业工程和制造的数字孪生概念已迅速扩展到医疗保健和生物医学研究领域,在那里它提供了在个体或群体层面模拟复杂生物系统的潜力。
数字孪生是生物系统的高保真计算复制品,它们正在成为模拟个体或群体水平免疫应答和病原体动力学的强大平台。这些虚拟模型动态整合实时和历史数据流,以模拟和预测疾病进展、免疫功能和治疗结果。在免疫学和传染病研究中,数字孪生可以实现个性化疫苗设计、优化治疗策略以及计算机(in silico)试验,在临床部署前测试干预效果。通过将免疫学的机制见解与患者特定数据相结合,这些系统有望解决个体免疫特征的变异性、加速流行病应对并支持公共卫生。
尽管前景广阔,但数字孪生在生物医学应用中的实施面临着重大的科学、技术和伦理挑战。核心在于准确模拟动态和多尺度生物系统的复杂性。构建和维护一个实时、数据驱动的孪生需要纵向、高分辨率的数据集,但这些数据通常不完整、有噪声或在患者和背景之间存在异质性。对于免疫学和传染病,这些挑战更加突出。此外,计算模型必须能够随时间进化,同时保持生物学合理性和临床相关性,鉴于当前在机制理解和模型验证方面的局限性,这是一项艰巨的任务。除此之外,还存在一些伦理和监管问题,包括数据隐私、同意和算法透明度,这进一步使采用复杂化,特别是当数字孪生用于临床决策支持或群体水平监测时。因此,虽然原型和用例存在,但免疫学和传染病中功能全面且可推广的数字孪生在很大程度上仍然充满挑战。
AI,特别是生成模型和大语言模型,为应对免疫学和传染病研究中开发和部署数字孪生面临的许多挑战提供了有前景的解决方案,尽管其实际应用仍处于早期阶段。AI驱动的方法可以提取和协调异构数据类型,使得用高维多模态信息填充和更新数字孪生变得可行。GenAI模型还可以模拟缺失或稀疏的数据点,生成合理的患者轨迹,并通过预测对干预或扰动(如感染或疫苗接种)的生物学反应来支持计算机(in silico)实验。AI已被用于模拟免疫受体多样性、预测免疫应答和模拟病原体-宿主相互作用,为构建免疫相关的数字孪生提供了关键组件。此外,AI系统可以通过动态建模、概率推断和自适应学习增强数字孪生的可解释性和可扩展性,使得数字对应物能够在新数据可用时实时进化。
AI模型在免疫学中的评估与基准测试
严格的评估和基准测试对于评估AI驱动发现在免疫学、疫苗学和传染病研究中的可靠性、普遍性和转化准备度至关重要。虽然许多GenAI和大语言模型工具在其原始出版物中报告了强大的性能,但这些评估通常是在精选的或特定领域的数据集上进行的,可能无法完全捕捉生物多样性、群体异质性或罕见的免疫背景。独立基准测试工作表明,当应用于较不常见的表位、代表性不足的MHC等位基因或分布偏移的数据集时,模型性能可能会有很大差异。
独立的评估进一步说明了报告的性能在更广泛或更严格的基准测试条件下可能与观察到的结果存在差异。例如,tFold-TCR最近被发表为一种用于TCR-pMHC复合物原子水平预测的高通量、端到端模型,作者基于DockQ预测成功指标报告了相对于AlphaFold-3的显著改进。然而,随后的一项独立基准测试比较了通用结构预测工具与TCR特异性模型,报告了不同的性能表现。在这个基准研究中,tFold-TCR并未始