综述:用于预测革兰氏阴性细菌分泌效应子的机器学习:进展与挑战

《Frontiers in Chemistry》:Machine learning for the prediction of gram-negative bacterial secreted effectors: advances and challenges

【字体: 时间:2026年04月21日 来源:Frontiers in Chemistry 4.2

编辑推荐:

  **摘要** 准确识别革兰氏阴性病原体分泌的毒力相关蛋白对于阐明细菌致病机制和开发新型抗菌干预措施至关重要。然而,传统的效应蛋白识别实验方法耗时且劳动强度大。近年来,机器学习(ML)领域的进展,从手工制作的特征到基于蛋白质语言模型的上下文感知嵌入,显著提高了分泌效应蛋白的预测

  **摘要**
准确识别革兰氏阴性病原体分泌的毒力相关蛋白对于阐明细菌致病机制和开发新型抗菌干预措施至关重要。然而,传统的效应蛋白识别实验方法耗时且劳动强度大。近年来,机器学习(ML)领域的进展,从手工制作的特征到基于蛋白质语言模型的上下文感知嵌入,显著提高了分泌效应蛋白的预测能力。本文系统性概述了基于ML的分泌效应蛋白预测方法,调查了可用的数据库资源、负样本集构建策略、特征表示方法以及从经典机器学习到深度学习的模型架构。我们讨论了基本挑战,包括数据稀缺性和类别不平衡、评估偏差以及模型可解释性。最后,我们提出了未来的研究方向,包括多模态数据整合、用于解决数据限制的元学习以及提高预测稳健性的不确定性量化。

**引言**
革兰氏阴性细菌主要通过复杂的分泌系统实现致病性,这些系统利用其独特的双膜包膜将毒力因子转运到宿主细胞中(Chang等人,2014;Costa等人,2015;Gerlach和Hensel,2007)。已确定五种主要的分泌系统,即I型、II型、III型、IV型和VI型分泌系统(T1SS、T2SS、T3SS、T4SS和T6SS),这些系统是革兰氏阴性细菌中的主要途径(Green和Mecsas,2016)。根据转运机制,这些系统分为独立于或依赖于通用分泌途径的系统。前者直接将底物注入目标细胞,而后者通过周质进行两步分泌过程(Galán和Waksman,2018;Hui等人,2021;Zhao等人,2023)。这些转运的底物被称为效应蛋白,在细菌致病性中起着关键作用,通过操纵宿主细胞过程促进生存和增殖(Zeng和Zou,2019)。例如沙门氏菌和肺炎军团菌分别利用T3SS和T4SS效应蛋白来破坏宿主免疫防御并建立细胞内复制环境(Jennings等人,2017;Ruano-Gallego等人,2021;Zink等人,2002)。鉴于效应蛋白在细菌毒力中的关键作用,准确识别它们对于阐明致病机制以及优先选择抗菌靶点和疫苗抗原至关重要(Qin等人,2022)。

传统上,分泌效应蛋白的识别和验证依赖于针对特定分泌系统的湿实验方法。对于I型分泌效应蛋白(T1SEs),使用溶血试验和C端截短突变来验证其向细胞外环境的分泌(Alav等人,2021;Pourhassan等人,2023)。II型分泌效应蛋白(T2SEs)通常通过生化分级和蛋白酶保护试验来验证其暂时性的周质定位(Goll等人,2025)。对于III型分泌效应蛋白(T3SEs)和IV型分泌效应蛋白(T4SEs),常用腺苷酸环化酶报告基因融合或Cre重组酶基试验来证明其向宿主细胞的转运(Chakravarthy等人,2017;Guzman-Herrador等人,2023)。VI型分泌效应蛋白(T6SEs)则通过细菌间竞争试验和溶血素共调控蛋白分泌检测来表征(Liang等人,2015)。尽管这些实验技术能够产生可靠的结果,但它们本质上耗时、劳动强度大且成本高昂。此外,这些试验具有系统特异性,无法轻松扩展以适应不断增长的细菌基因组序列数量。因此,迫切需要高通量计算方法来识别候选效应蛋白,以便后续实验验证。

随着实验验证效应蛋白序列的迅速积累,基于ML的方法能够有效解决这一问题。机器学习算法可以直接从氨基酸序列或结构特征中识别出具有区分性的模式,从而实现候选效应蛋白的高通量筛选。过去十年中,基于ML的效应蛋白预测取得了显著进展。早期工作依赖于经典模型,如支持向量机(SVM)和随机森林(RF),这些模型基于手工制作的特征进行训练,包括氨基酸组成(AAC)、位置特异性评分矩阵(PSSM)和物理化学描述符(Arnold等人,2009;Dong等人,2013;Goldberg等人,2016;Samudrala等人,2009;Wang等人,2011;Wang等人,2013a;Yang等人,2010;Zou等人,2013)。尽管这些方法表现令人满意,但它们对预定义表示的依赖性限制了捕捉分泌效应蛋白中复杂、依赖上下文的模式的能力。随着深度学习的发展,卷积神经网络(CNNs)被引入用于检测局部序列基序,而循环神经网络(RNNs)有效捕捉了长距离依赖性(Fu和Yang,2019;Hong等人,2020;Hui等人,2020;Jing等人,2021;Li等人,2021;Yu等人,2021)。最近,基于数十亿未标记序列预训练的蛋白质语言模型(pLMs),如进化尺度建模(ESM)(Lin等人,2023)和ProtBERT(Elnaggar等人,2021),能够提供更丰富的特征,捕捉全局上下文依赖性(Gao等人,2025;Li等人,2024;Zhang Y.等人,2023)。同时,结构预测技术,尤其是AlphaFold(Jumper等人,2021),以及像Foldseek(Van Kempen等人,2024)这样的快速结构搜索工具,现在允许研究人员将三维信息纳入预测流程(Peng等人,2025)。总体而言,这些进步使机器学习成为大规模效应蛋白发现的有效方法,大幅减少了需要实验验证的候选数量。图1展示了分泌效应蛋白识别的通用机器学习流程,包括数据集构建、特征表示、机器学习建模和性能评估。

**图1** 分泌效应蛋白识别的机器学习流程概述。工作流程从左到右包括四个连续阶段:数据集构建、特征表示、机器学习建模和性能评估。在数据集构建阶段,从UniProt等公共数据库和文献中报告的公共基准中收集蛋白质序列,然后进行curation和过滤。在特征表示阶段,使用氨基酸属性、基于序列的特征、结构信息或数值编码方案对蛋白质进行编码。在建模阶段,应用各种算法,如KNN(k最近邻居)、SVM(支持向量机)和深度学习模型。在性能评估阶段,使用混淆矩阵条目(TP,真阳性;TN,真阴性;FP,假阳性;FN,假阴性)和精确度-召回率(PR)曲线等指标来评估预测结果。

**本文综述**
我们首先总结了用于训练和评估模型的主要数据库资源,包括系统特定数据库和跨系统数据库,然后讨论了负样本构建策略,评估不同方法如何减轻标签噪声和背景偏差。进一步回顾了特征表示方法,从手工制作的描述符到基于pLM的深度语义嵌入,并比较了从经典机器学习到现代深度学习框架的模型架构。还讨论了关键限制,包括负样本集构建挑战、数据稀缺性、评估偏差和模型可解释性。最后,我们提出了未来的研究方向,包括多模态数据整合、用于低数据量的元学习以及提高预测稳健性的不确定性量化。我们希望本综述能为开发更准确和稳健的效应蛋白预测工具提供实用指导。

**数据库资源**
预测模型的准确性在很大程度上取决于训练数据集的质量和覆盖范围。在过去20年中,多个经过实验验证的资源被整理出来以支持基于ML的效应蛋白预测。这些资源分为两类:专注于单个分泌途径的系统特定数据库和整合多个分泌途径数据的跨系统数据库。表1提供了常用数据库的总结。

| 数据库 | 效应蛋白类型 | 效应蛋白数量 | URL |
|-------------|-----------------|----------|-------------------|
| T3Sedb | T3SE | 504 | http://effectors.bic.nus.edu.sg/T3SEdb |
| T3DB | T3SE | 未明确 | http://61.160.194.165:3080/T3DB/ |
| BEAN2.0 | T3SE | 1,215 | http://systbio.cau.edu.cn/bean |
| T3Enc | T3SE | 519 | http://61.160.194.165:3080/T3Enc/index.html |
| SecReT4 | T4SE | 188 | http://db-mml.sjtu.edu.cn/SecReT4 |
| SecReT6 v3 | T6SE | 330 | https://bioinfo-mml.sjtu.edu.cn/SecReT6/ |
| SecretEPDB | T3SE/T4SE/T6SE | 2,142 | http://secretepdb.erc.monash.edu.au |
| BastionHub | T1SE-T4SE/T6SE | 2,366 | http://bastionhub.erc.monash.edu |

**系统特定数据库**
一些数据库专注于单个分泌系统,提供详细的、实验支持的注释。对于T3SS,T3SEdb(Tay等人,2010)是第一个专门针对T3SE的数据库。它通过系统地从PubMed文献和国家生物技术信息中心(NCBI)蛋白质数据库中检索数据,并进行手动curation构建而成,包含了来自46个细菌物种的1,089个T3SE记录,其中包括504个经过实验验证的效应蛋白、572个假定的效应蛋白和13个状态未知的条目。T3DB(Wang等人,2012)采用更广泛的方法,编目了26个细菌属和35个代表性菌株中的T3SS相关成分,不仅记录了效应蛋白,还记录了分泌装置亚基、伴侣蛋白和调节因子。BEAN 2.0(Dong等人,2015)将整理的文献证据与UniProt(An等人,2017)的注释相结合,收集了来自221种致病细菌的1,215个经过实验验证的T3SE,并提供了243个非重复的阳性T3SE样本,这些样本被广泛用于比较分析和基准研究。T3Enc(Hu等人,2017)通过系统文献挖掘整理了519个经过实验验证的、非重复的T3SS效应蛋白,其中约70%被归入91个同源家族,其余155个被归类为单一效应蛋白。

对于T4SS,SecReT4(Bi等人,2013)通过对NCBI参考序列数据进行基因组规模分析并结合PubMed文献的手动curation构建而成,编目了808个T4SS簇、10,752个核心组分蛋白和289个细菌物种中的1,884个效应蛋白。对于T6SS,SecReT6 v3(Zhang J.等人,2023)将已发表研究中的实验验证证据与细菌基因组数据整合,记录了225个经过验证的T6SS簇、330个效应蛋白和156个相关的免疫蛋白。

**跨系统数据库**
虽然系统特定资源强调了单个分泌系统内的深度,但跨系统数据库通过整合多个分泌途径的效应蛋白提供了更广泛的覆盖范围,从而实现了比较分析和大规模数据整合。SecretEPDB(An等人,2017)整理了来自T3SS、T4SS和T6SS的经过实验验证的效应蛋白,包括2,142个蛋白质(1,338个T3SEs、1,228个T4SEs和185个T6SEs),其来源可追溯至UniProt、NCBI Protein和主要文献。BastionHub(Wang等人,2021)将这一多系统范围扩展到五个分泌系统,整合了现有数据库和整理的文献,组装了2,366个效应蛋白(195个T1SEs、83个T2SEs、1,194个T3SEs、713个T4SEs和181个T6SEs),涉及171个细菌物种。这些跨系统资源支持全球基准测试和基于迁移学习的机器学习研究。

UniProt也是效应蛋白预测研究的重要资源。关键词搜索可以提取高置信度的阳性样本,而通过基因本体(GO)术语和亚细胞定位注释过滤的条目提供了可靠的非分泌蛋白质,用于构建负样本集(Zou等人,2013)。结合上述专用资源,这些整理的数据库为细菌分泌系统效应蛋白的计算建模奠定了基础,并有助于标准化该领域的训练和评估数据集。

**负样本集构建策略**
构建可靠的负样本集仍然是分泌效应蛋白预测中的主要挑战。“非效应蛋白”代表一个广泛且异质的类别,其中许多蛋白质的功能未知。不同的工具使用不同的策略来构建负样本集。
一种常见的早期方法是从细菌蛋白质组候选池中抽样非效应蛋白(Dong等人,2013;Goldberg等人,2016;Wang等人,2011;Wang等人,2013b)。例如,Dong等人(2013)从UniProt中选择了研究充分的革兰氏阴性细菌蛋白质组作为候选池,然后应用基于关键词的功能注释过滤和基于同源性的排除已知的效应蛋白来减少负样本集中的噪声。尽管这种方法减少了包含已知或密切相关的效应蛋白的可能性,但负样本仍然是从蛋白质组采样中获得的代理负样本,而非经过实验验证的非效应蛋白。因此,未注释的真正效应蛋白仍可能被包含在内,从而引入标签噪声,影响模型在现实世界应用中的性能。
当正样本和负样本来自不同的基因组背景时,模型可能会利用系统发育差异(如GC含量)而非真正的分泌相关信号,导致预测性能过高(Arnold等人,2009;Samudrala等人,2009;Yang等人,2010)。为了解决这个问题,一些研究将负样本限制在与正样本相同的源背景中。例如,T4SEpre(Wang等人,2014)从与正样本相同的菌株中抽样非效应蛋白,同时排除了已知的效应蛋白及其同源物,迫使模型关注内在序列模式而非物种特异性特征。然而,由于负样本仍然是代理负样本,来自未注释效应因子的标签噪音仍然难以避免。为了进一步减少负样本集中的潜在标签噪音,一些研究选择了更为“保守”的背景负样本,例如来自UniProt的胞内或管家蛋白,或者基于缺乏目标分泌系统的参考生物体定义的非效应因子(Dhroso等人,2018年;Wang等人,2019b年;Zalguizuri等人,2019年;Zou等人,2013年)。这类负样本通常在分泌相关特征上与效应因子有明显差异,使得模型容易区分。然而,这些过于简单的负样本往往高估了模型的性能,因为现实世界中的未知效应因子可能并不那么容易区分。另一种方法使用来自其他分泌系统的效应因子作为负样本(Hui等人,2020年;Wagner等人,2025年;Wang等人,2014年;Xue等人,2019年;Yang等人,2013年;Yu等人,2021年)。例如,在训练T4SE分类器时,T1SEs、T2SEs、T3SEs和T6SEs可以作为负样本。这种策略确保了负样本的“清洁性”,避免了包含未知效应因子的风险。然而,这种方法训练模型区分效应因子亚型而非效应因子与非效应因子,可能限制了其在全蛋白质组筛选中的有效性。

不同的负样本采样策略会显著影响评估指标。当负样本集过于简单(例如主要由胞内蛋白组成)时,模型可以轻松获得较高的指标值。相反,当负样本包括与已知效应因子序列相似但在功能上无关的蛋白时,模型性能通常会下降,但这种设置更接近现实世界的应用场景。总体而言,负样本选择仍然是一个主要挑战,如何构建既纯净又足够具有挑战性的负样本集仍是一个未解决的问题。在实际应用中,负样本采样策略的选择应基于预期的应用。对于模型开发和基准测试,使用胞内蛋白或管家蛋白等保守的负样本可以提供稳定的训练信号,并促进快速的性能比较,尽管这可能会高估预测性能。当目标是在现实条件下评估泛化能力时,来自与正样本相同基因组背景的蛋白质组衍生的负样本更为合适,因为它们更好地反映了全蛋白质组筛选的复杂性,同时减少了系统发育偏差。对于专注于区分效应因子亚型的任务,使用来自其他分泌系统的效应因子作为负样本是合适的,尽管这并不代表真正的效应因子与非效应因子的分类。没有一种策略是普遍最优的,建议在多种负样本集下评估模型,以提供更全面的模型鲁棒性和实际效用评估。

分泌效应因子的表示对模型性能和分泌效应因子识别的泛化能力有很大影响。有效的表示应捕捉与预测任务相关的区分性信息。目前编码蛋白质序列的方法分为几类。

**基于氨基酸组成的特征**

基于氨基酸组成的描述符是最早和最广泛用于分泌效应因子识别的特征之一,它们捕捉了蛋白质序列中的统计规律。基本氨基酸组成(AAC)量化了二十种标准氨基酸的全球频率,反映了总体组成差异,同时忽略了位置信息。为了纳入局部序列依赖性,常用二肽组成(DPC)和三肽组成(TPC)来量化相邻残基对和三联体的出现频率,从而捕捉短范围的共现模式。k-间隔氨基酸对组成(CKSAAP)在预定义的距离上枚举残基对频率,同时保留了配对和相对位置信息。类似地,k-mer或n-gram特征通过调整k值来描述不同规模的序列片段模式。这些描述符计算效率高、实现简单且相对易解释。然而,它们在表示理化性质和长距离依赖性方面的能力有限,通常需要与互补的特征类型结合使用以提高预测准确性。

**基于理化性质的特征**

基于理化性质的特征明确编码了氨基酸的生化属性,如疏水性、极性和电荷,为分泌效应因子的表征提供了可解释的信息。其中,组成-转换-分布(CTD)家族是最广泛使用的之一。它将20种氨基酸划分为基于性质的组,并从三个互补的角度量化序列,即组成、转换和分布,以描述给定理化性质在序列中的组织。分组氨基酸组成(GAAC)和分组二肽组成(GDPC)采用类似的分组策略,减少了特征维度,同时保留了关键的生化信息。联合三元组(CTriad)和伪氨基酸组成(PseAAC)通过结合局部片段模式或序列顺序因素进一步增强了基于性质的编码,解决了纯组成描述符无法捕捉序列依赖性的问题。这些特征计算简单、解释性强,经常与进化或其他特征类型结合使用以提高预测性能。

**基于进化信息的特征**

基于进化信息的特征捕捉了同源蛋白家族内的保守模式和替代偏好,提供了超出简单组成统计的信息。这类特征的基础是位置特异性评分矩阵(PSSM),通常通过使用PSI-BLAST进行迭代同源搜索构建(Altschul等人,1997年),以表征每个序列位置上的进化约束和替代倾向。已经开发了许多基于PSSM的表示方法,以获得固定长度的编码,并强调进化信号的不同方面。例如,Smoothed-PSSM(Cheng等人,2008年)应用窗口平均化整合了相邻位置的信号,增强了局部模式识别。Pse-PSSM(Chou和Shen,2007年)遵循PseAAC的策略,将可变长度的PSSM转换为统一长度的向量,同时保留部分序列顺序信息。DP-PSSM(Juan等人,2009年)明确建模了潜在的序列依赖性,以提高分类性能。这些特征有效地捕捉了与分泌效应因子功能相关的进化保守模式,提高了模型的鲁棒性和性能。然而,它们依赖于数据库驱动的同源搜索,这在计算上可能非常昂贵,并且对于几乎没有或没有可识别同源物的蛋白质可能表现不佳。

**结构特征**

结构特征通过编码多样的构象和生物物理性质(如折叠状态、表面可及性和无序倾向)来补充序列和进化信息。这些描述符通常来自结构预测工具或从预测结构计算出的统计信息。常见的表示包括二级结构、相对溶剂可及性、内在无序区域、基于距离的残基(DR)特征(Liu等人,2017年)和三级结构。然而,结构特征受限于巨大的计算成本,特别是对于三级结构预测,以及来自上游预测工具的潜在错误传播。

**残基级表示**

对于分泌效应因子的预测,原始序列是最广泛可用的信息来源,许多模型直接处理按残基顺序排列的输入。实际上,长度为L的蛋白质表示为一个n × L的残基级矩阵,每个位置在由神经网络处理之前被映射到一个n维向量。One-hot编码通过为20种标准氨基酸中的每一种分配一个唯一的二进制向量来提供直接的离散表示(Chen等人,2021年),但它将残基视为独立符号,不编码任何显式的理化信息。为了解决这一限制,一些研究使用PSSM等进化谱型作为替代的残基级输入,使模型能够捕获包括末端区域潜在分泌相关信号的功能模式。在深度学习环境中,残基向量也可以作为可训练的嵌入进行学习,允许模型在足够的训练数据下优化效应因子区分的表示。当与CNN或RNN等结构结合使用时,这些序列表示特别有效,因为它们非常适合捕捉局部基序和长距离依赖性。

**数据驱动的潜在表示**

除了手工制作的描述符之外,学习的潜在表示已成为蛋白质和肽预测任务的重要替代方案。预训练的pLMs在大规模序列语料库上进行训练,生成上下文依赖的嵌入,其中每个残基根据其周围的序列上下文进行表示。这些表示可以在残基级别使用,其中位置特定的嵌入由下游架构(如CNN或Transformers)进一步处理(Yang等人,2026年;Zhang Y.等人,2023年),或者在序列级别使用,其中残基嵌入被聚合成一个单一向量用于分类。最近在相关蛋白质和肽预测任务中的研究表明,这样的预训练表示可以支持多种下游应用(Du等人,2024年;Du等人,2025年;Kumar等人,2025年)。与One-hot编码或手工制作的统计相比,pLM嵌入可以捕捉局部基序和长距离依赖性,有助于识别远缘同源物并提高跨物种或蛋白质家族的泛化能力。此外,这些由序列派生的表示可以与预测的结构信息结合使用,进一步丰富下游特征。例如,AlphaFold预测的结构可以转换为结构字母表,并由ProstT5等模型编码(Heinzinger等人,2024年),从而用显式的空间上下文补充基于序列的嵌入。这些预训练的嵌入可以作为信息性特征使用,从而在保留广泛生物学信息的同时支持效应因子预测。

**用于分泌效应因子预测的机器学习模型**

分泌效应因子的计算预测经历了三个阶段。早期方法依赖于手工制作的特征和传统的机器学习分类器。随后,深度学习实现了从原始序列的端到端学习,自动提取局部基序和长距离依赖性。最近,pLMs提供了丰富且上下文感知的表示,进一步增强了预测性能。表2总结了该领域的代表性方法。

**表2 组别 方法(年份) 分泌系统 预测算法 特征表示**

| 方法(年份) | 分泌系统 | 预测算法 | 特征表示 |
|---------|--------------|------------------|-------------|
| SIEVE (2009) | (Samudrala等人,2009) | T3SS | SVM |
| EffectiveT3 (2009) | (Arnold等人,2009) | T3SS | Na?ve Bayes |
| BPBAac (2011) | (Wang等人,2011) | T3SS | |
| BEAN (2013) | (Dong等人,2013) | T3SS | SVM |
| T4EffPred (2013) | (Zou等人,2013) | T4SS | SVM |
| T4SSSVM | (Wang等人,2014) | 基于PSSM的k间隔氨基酸对组成 |
| T4SEpre (2014) | (Wang等人,2014) | T4SS | SVM |
| BEAN2.0 (2015) | (Dong等人,2015) | T3SS | |
| T3SSSVM | (Goldberg等人,2016) | T3SS | |
| Bastion6 (2018) | (Wang等人,2018) | T6SS | 两层SVM集成模型 |
| Bastion3 (2019) | (Wang等人,2019a) | T3SS | |
| Bastion4 (2019) | (Wang等人,2019b) | T4SSE | 集成模型 |
| DeepT3 (2019) | (Xue等人,2019) | T3SS | CNN |
| DeepT3 (2019) | (Fu和Yang,2019) | T3SS | CNN |
| T4SE (2020) | (Hong等人,2020) | 基于PSSM的蛋白质二级结构和溶剂可及性 |
| T3SEpp (2020) | (Hui等人,2020) | T3SSE | 集成模型 |
| T4SE-XGB (2020) | (Chen等人,2020) | T4SS | Extreme Gradient Boosting |
| DeepT3_4 (2021) | (Jing等人,2021) | T3SS | CNN、RNN、MLP |
| T3SS/T4SS (2021) | (Yu等人,2021) | CNN、RNN、CNN-RNN、MLP | |
| pLM-T3SE (2022) | (Gao等人,2025) | T3SS | |
| CLEF (2025) | (Peng等人,2025) | T3SS/T4SS/T6SS | 对比学习、Transformer、MLP |
| DeepSecE (2023) | (Zhang等人,2023b) | T1SS/T2SS/T3SS/T4SS/T6SS | CNN |
| pLM嵌入 | (Zhang等人,2023b) | |
| T4Seeker (2024) | (Li等人,2024) | T4SS | Long Short-Term Memory、MLP |
| TXSelect (2025) | (Li等人,2025) | T1SS/T2SS/T3SS/T4SS/T6SS | |

以上内容总结了用于分泌效应因子预测的机器学习方法。在终端信号研究之后,后续研究将特征工程扩展到多特征融合,结合了更广泛的序列衍生属性和进化信息。SIEVE(Samudrala等人,2009年)通过在一个SVM框架内整合GC含量、氨基酸组成偏置、进化和系统发育测量以及N端30个残基的特征,展示了这种方法。随着特征工程的这些进步,集成学习在分泌系统中得到了广泛应用。对于T3SE预测,Bastion3 [84] 强调从全长序列中提取特征并探索多个特征类别,然后构建了一个在集成学习架构中整合特征组的双层模型。EP3(Li等人,2021年)提出了一个结合Smith-Waterman算法和标签传播(Zhu和Ghahramani,2002年)的集成预测器,并使用了合成少数过采样技术(SMOTE)(Chawla等人,2002年)来解决训练集不平衡问题。对于T4SE预测,T4EffPred(Zou等人,2013年)从初级序列计算出多个特征族,并训练了一个SVM分类器,外加一个设计用来合成各个分类器的集成层。Bastion4(Wang等人,2019b)系统地训练并比较了选定特征上的多个学习器,通过多数投票策略构建了集成模型。对于T6SE预测,Bastion6(Wang等人,2018年)也提取了多样化的特征,并通过整合这些特征组开发了一个基于SVM的双层集成模型。

深度学习方法显著改变了从蛋白质序列中提取信息的方式。这一阶段的早期研究主要使用CNN来捕获局部序列基序,以及RNN来模拟长距离依赖性,同时探索整合进化和结构信息与原始序列的端到端策略。DeepT3(Xue等人,2019年)是最早证明CNN对T3SE识别有效的研究之一。该方法使用N端100个残基的一热编码作为输入,通过CNN捕获局部特征,表明仅使用纯序列衍生特征(不包含物理化学属性或基于对齐的信息)就可以大幅提高预测准确性。由于一热编码无法捕捉残基之间的潜在语义关系,WEDeepT3(Fu和Yang,2019年)通过将蛋白质序列类比于自然语言,引入了更具表现力的表示方法。作者们使用Word2Vec在UniRef50语料库上预训练了k-mer嵌入,并将其与PSSM特征结合,从而实现了更有效的预测。将深度学习扩展到T4SE识别,CNN-T4SE(Hong等人,2020年)系统地比较了多种编码方案,包括PSSM、蛋白质二级结构和溶剂可及性以及一热编码,评估了它们对T4SE数据集性能的影响。基于这些基准,作者们开发了一种投票策略,整合了表现最好的三个模型的预测结果,从而在保持敏感性的同时降低了假阳性率。

除了编码和单模型优化之外,后续的工作重点关注了架构多样性及多模型集成。DeepT3 2.0(Jing等人,2021年)在不同的序列长度设置中对比了CNN、RNN和CNN-RNN混合架构的性能,表明基于投票的元预测器整合多个模型可以提高基因组规模扫描的准确性和覆盖率。T3SEpp(Hui等人,2020年)实现了一个更全面的流程,结合了基于同源性的筛选模块与深度学习预测器(T3SEdnn和T3SErnn)以及亚细胞定位工具,通过加权整合所有模块输出得出最终概率,这一策略有效缓解了单模型方法固有的高假阳性率问题。传统的序列表示方法,包括手工策划的物理化学特征、多序列比对(MSA)衍生的进化谱(如PSSM)和一热编码,在缺乏可检测同源物的孤儿蛋白质上存在困难,并且对对齐质量敏感。相比之下,pLM可以通过大规模预训练直接从原始序列学习更丰富的上下文表示,而不依赖于基于对齐的方法。对于T4SE预测,T4SEfinder(Zhang等人,2022年)使用pLM嵌入对序列进行编码,并通过多层感知器(MLP)或双向长短期记忆网络(BiLSTM)进行分类。作者们证明,结合简单分类器的pLM衍生表示显著优于基于PSSM的方法,且不需要MSA,同时实现了大幅降低的计算成本的基因组规模筛选。T4Seeker(Li等人,2024年)通过多级特征融合提高了鲁棒性,整合了氨基酸组成、基于距离的残基(DR)描述符、ESM嵌入和BiLSTM衍生特征用于基于MLP的分类。在训练过程中,T3SEs和T6SEs被作为硬负样本来强制模型捕捉特定于T4SE的特征而不是通用分泌基序。为了降低单策略方法的高假阳性率,T4SEpp(Hu等人,2024年)整合了同源性搜索单元、传统ML模块和基于pLM嵌入的注意力转移学习模型,最终预测结果由模块输出的加权聚合得出。

除了针对个别分泌系统的二分类器之外,还开发了几种用于多类效应子预测的统一框架。DeepSecE(Zhang Y.等人,2023年)通过将pLM嵌入输入到卷积层进行局部基序检测,然后使用Transformer编码器捕获长距离依赖性,实现了六类分泌效应子的分类。TXSelect(Li等人,2025年)采用多任务学习框架,使用共享的骨干结构和任务特定的头来共同识别I型、II型、III型、IV型和VI型效应子,整合了ESM衍生的特征与传统描述符。这种共享骨干设计解决了单任务模型的泛化限制。为了更好地将pLM表示与异质生物特征结合,CLEF(Peng等人,2025年)采用了对比学习框架和双编码器架构。一个编码器转换固定的pLM表示,而另一个将模态特征投影到共享的潜在空间中。使用信息噪声对比估计损失,CLEF在预训练期间通过对齐 paired 输入来学习跨模态表示,实现了对肠道病原体效应子的高敏感性,并能够直接从蛋白质序列进行下游推理。

尽管方法论的进步显著提高了效应子预测的准确性,但每种方法都有其自身的优点和局限性。传统的机器学习方法依赖于手工制作的序列特征,这些特征在捕捉复杂、非线性的序列关系方面的能力有限。此外,常用的描述符如PSSM衍生的进化谱依赖于MSA的质量和同源序列的可用性,这限制了它们对孤儿蛋白质的有效性。深度学习模型通过直接从原始序列学习层次化的表示来克服这一限制,实现了基序和长距离模式的自动发现。基于pLM的方法通过从单个序列生成残基嵌入进一步改进了序列表示,提供了更具信息量的特征,而不依赖于MSA。这三种方法在可解释性上也有所不同。传统方法具有更高的可解释性,因为手工制作的特征可以直接与生物学假设联系起来。深度学习和基于pLM的模型则较难解释。尽管事后技术如注意力可视化和基于梯度的归因可以突出信息量丰富的序列区域,但这些信号很少提供明确的机制洞察。尽管深度学习和基于pLM的方法具有更高的预测准确性,但它们带来了实际的权衡。深度神经网络相比SVM等传统模型需要更多的计算资源和内存。特别是pLM,通常包含数亿到数十亿个参数。此外,许多效应子预测数据集相对较小,增加了大型神经架构过拟合的风险。相比之下,基于精心设计的序列特征训练的传统机器学习模型通常更具计算效率,并且在数据有限的情况下仍具有竞争力。因此,选择合适的方法需要平衡预测性能、计算成本和数据可用性。

除了架构差异之外,现有方法在数据集构建、负样本策略和评估协议上也存在很大差异。因此,不同研究中报告的性能值往往无法直接比较。许多早期研究依赖于精心策划或简化的负样本集,这可能会高估预测性能,而较新的方法尝试结合更难的负样本或跨系统设置以更好地反映现实世界情景。此外,评估方案在不同研究中也有差异,进一步复杂化了直接比较。这些不一致性突显了需要标准化基准数据集和统一评估协议,以实现更公平和更有意义的比较。

评估分泌效应子预测模型的性能需要多个互补的指标,因为没有单一指标能够完全捕捉分类质量。准确性(ACC)提供了正确预测的总体衡量标准,而敏感性(SN)和特异性(SP)分别量化了模型正确识别真阳性和真阴性的能力。鉴于生物数据集中通常观察到的类别不平衡现象(非效应子数量远多于效应子),马修斯相关系数(MCC)提供了一种更可靠和无偏的评估分类性能的方法,适用于偏斜的分布。MCC的范围是从-1到1,其中1表示完美预测,0表示性能不优于随机猜测,-1表示预测与真实标签完全不一致。与ACC不同,当模型主要预测多数类时,MCC可能显得过高,但MCC在类别不平衡的情况下仍然具有信息量,因为它更好地反映了混淆矩阵中所有四个结果的平衡。实际上,更高的正MCC值表示更好的分类性能。此外,F1分数定义为精确度(PR)和敏感性的调和平均值,有效地平衡了假阳性和假阴性之间的权衡,对于不平衡的分类任务特别有信息量。这些指标的计算公式如下:
ACC = (TP + TN) / (TP + FP + TN)
SN = TP / (TP + FN)
SP = TN / (TN + FP)
PR = TP / (TP + FP)
F1 = 2 * SN / (1 + PR)
MCC = (TP × TN) - (FN × FP) / √(TP + FN) × (TP + FP) × (TN + FN)

除了这些特定于阈值的指标之外,接收者操作特征(ROC)曲线绘制了所有阈值下的真阳性率与假阳性率。然而,在高度不平衡的数据集上,基于ROC的指标可能会显得过于乐观,因为大量真阴性主导了评估。在基因组规模的效应子筛选中,非效应子通常远远超过真效应子。精确度-召回率(PR)曲线在这种情况下更具信息量,因为它们关注正类的性能。因此,基于PR的指标结合仔细的阈值校准可能提供更现实的模型实用性评估。

尽管方法论取得了显著进步,但几个基本挑战仍然限制了分泌效应子预测器的开发和可靠部署。这些挑战涵盖了负数据集构建、数据可用性和生物可解释性等方面。构建可靠的负数据集仍然是分泌效应子预测中的一个主要未解决问题。由于非效应子代表了一个广泛且异质的类别,现有的任何采样策略都无法同时保证标签的纯净度和任务的真实性。来自蛋白质组的负样本可能包含未注释的效应子,而保守的负样本(如管家蛋白)往往使分类变得过于简单。使用其他分泌系统的效应子可以避免标签污染,但使得任务偏向于亚型区分而不是区分效应子和非效应子。因此,如何构建可靠且真实的负数据集仍然是模型训练和性能评估中的一个未解决挑战。

实验验证的效应子稀缺以及严重的类别不平衡仍然是开发高性能预测模型的主要障碍。此外,数据可用性在不同分泌系统之间差异很大。与相对丰富的T3SEs和T4SEs数据集相比,实验验证的T1SEs和T2SEs的数量要少得多,进一步加剧了不平衡问题。例如,在DeepSecE中,T3SEs和T4SEs的数量分别为406和504,而只有128个T1SEs和68个T2SEs可用。这种不平衡可能会使决策边界偏向多数类,增加过拟合的风险,尤其是在基于有限样本训练的深度学习模型中。在这种条件下,模型可能会捕捉到系统发育噪声而不是广泛可泛化的分泌信号。尽管已经使用了各种重采样策略来缓解类别不平衡,但它们是否适用于高度异质的效应子数据集仍然不确定,特别是在深度表示学习中,简单的合成增强可能无法保留生物学意义上的变异。

即使有精心策划的数据集,使用CD-HIT聚类等工具以60%-90%的序列身份进行冗余减少已成为标准做法,以去除近似重复的序列。然而,这种过滤主要消除了高度相似的序列,并不能防止同一家族的同源蛋白质同时出现在训练集和测试集中。在这种情况下,模型可能会通过识别同源模式而不是学习可泛化的分泌信号来达到人为的高准确性。当使用从pLMs衍生的嵌入作为输入特征时,另一个潜在的评估偏差源可能出现。像ESM这样的模型是在来自UniProt等数据库的数亿个序列上预训练的,这意味着下游数据集中的某些序列可能已经在预训练中出现过。虽然这不构成标签泄露,但模型可能已经学会了相同或密切相关的序列的表示,从而在熟悉输入上提高了性能。为了减轻这些偏差,未来的研究应考虑采用更严格的聚类阈值和考虑集群的评估策略。冷启动分割,即将整个序列簇专门分配到训练集或测试集中,提供了一种更严格的方法来确保测试集的独立性,并获得模型泛化的真实估计。

除了数据和评估问题之外,可解释性仍然是一个挑战。传统的线性或基于树的模型通过特征权重或基尼重要性(Guyon和Elisseeff,2003年)提供了直观的可解释性,有助于识别分泌信号。深度学习模型虽然性能更好,但解释起来要困难得多,通常表现为“黑箱”。尽管事后方法(Wong等人,2024年;Yuan等人,2022年)可以突出重要特征,但计算得出的“重要性”往往与实际的生化机制不符。一个主要问题是计算推断出的特征缺乏实验验证。未来的研究将受益于计算研究人员和实验研究人员之间更紧密的合作,采用定点突变或结构方法来验证模型识别的残基是否介导效应子与分泌机制之间的相互作用。

展望:机器学习(ML)已被广泛应用于解决分泌效应子识别和表征的关键挑战。许多使用ML模型发现的候选效应子已经通过实验验证了它们的转运和生物学功能,证明了ML在效应子发现中的价值。ML可能会继续加速这一领域的研究,帮助科学家阐明致病机制,并优先考虑用于抗菌治疗和疫苗开发的候选对象。基于上述限制,我们提出了未来工作的三个方向:(i) 多模态数据集构建,(ii) 元学习以解决数据稀缺和类别不平衡问题,以及(iii) 泛化能力评估和不确定性量化。

**多模态数据集构建**:随着结构预测方法(如AlphaFold)的突破,结构信息已变得越来越适合大规模计算分析。大量研究表明,与仅依赖序列的表示相比,结合结构特征可以提高下游预测性能。除了序列和结构之外,未来的数据集还应整合多样化的效应子相关知识,包括蛋白质功能注释、GO术语和结合位点信息。这种专家策划的知识可能会实现更全面且生物学上更有意义的表示。然而,整合异构数据源会引入技术挑战。特别是,当一个来源的高区分度特征主导优化过程时,可能会发生模态坍塌,导致模型未能充分利用其他模态的信号。解决这个问题可能需要精心设计的融合策略,例如特征对齐、跨模态注意力机制或梯度平衡技术,以更好地整合不同模态的互补信息。此外,构建包含多个分泌系统并带有标准化注释的统一基准数据集将有助于公平的模型比较,并加速方法学进展。这样的多模态基准还可以支持多任务学习框架,其中跨相关预测任务的共享表示可以提高个别分类问题的性能。

**元学习以解决数据稀缺和类别不平衡问题**:除了改进的数据集外,元学习为解决实验验证效应子的稀缺性和分泌系统之间的极端类别不平衡问题提供了有前景的框架。例如,T3SS和T4SS等研究较为深入的系统与T1SS和T2SS等代表性不足的系统之间存在几数量级的差异。元学习可以通过捕获任务或蛋白质家族之间的共享模式来增强对罕见类别的泛化能力,即使在训练样本有限的情况下也能实现稳健的性能。通过学习跨功能类别的泛化,模型可以从数据丰富的系统转移知识,以识别长尾分布中的效应子。受肽生物活性预测的互信息最大化元学习(He等人,2022年)和活性分析的ActFound(Feng等人,2024年)等成功应用的启发,未来的研究应探索用于效应子预测的少样本或零样本学习架构,这对于发现缺乏注释同源物的新效应子家族至关重要。此外,将元学习与多模态数据(包括序列、预测结构和蛋白质注释)相结合,将使模型能够快速适应新测序的菌株,而无需大量的微调,从而加速新效应子的发现。

**泛化能力评估和不确定性量化**:可靠的效应子预测器不仅需要强大的基准性能,还必须能够很好地泛化到新的基因组,并明确表示其对每个预测的信心。当前的评估实践通常基于冗余降低后的随机交叉验证,这往往会高估实际性能,如上所述。系统性的泛化能力评估应成为标准做法,包括针对系统发育上较远生物的冷启动评估、在代表性不足的分泌系统上的保留测试,以及按序列相似性分层报告性能。这些分析将有助于确定预测器保持可靠性的条件。不确定性量化同样重要。传统的效应子分类器通常只输出一个概率分数,而不量化预测的可靠性。未来的架构应结合不确定性量化技术,为每个预测提供置信区间或可靠性指标。这些置信估计可以有效识别由于训练样本不足而产生的低置信度预测,帮助实验人员优先考虑下游验证的候选对象。

**结论**:在过去十年中,通过对多样化特征表示和日益复杂的机器学习架构的整合,革兰氏阴性细菌分泌效应子蛋白的预测取得了显著进展。正如本综述所总结的,该领域已经从基于简单氨基酸组成的早期分类器发展到利用大规模语言模型(pLM)深度语义嵌入的现代方法,每一代方法都提高了预测精度并扩展了在各种分泌系统中的适用性。尽管取得了这些进展,但仍存在几个根本性挑战。数据稀缺和极端类别不平衡继续限制着模型训练,尤其是对于T1SS和T2SS等研究不足的系统中的效应子。构建可靠的负样本仍然是一个关键但常被忽视的问题,因为不适当的采样策略可能会引入较大偏差并夸大性能估计。此外,大多数现有模型表现为“黑箱”,对驱动它们预测的生物学特征的了解有限,这仍然是理解机制和实验人员广泛采用的重要障碍。 several technical developments are likely to drive future progress. The integration of multimodal features, combining sequence, structure, and genomic context, may enable biologically richer representations. Meta-learning and few-shot learning strategies could address data limitations for understudied systems. Advances in uncertainty quantification will enable models to flag low-confidence predictions, guiding more efficient experimental validation. In conclusion, machine learning has become a powerful tool for large-scale effector discovery. By addressing current limitations and embracing emerging methodologies, researchers will be able to develop more accurate and robust prediction tools.
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号