机器学习驱动的人体播散相关伯氏疏螺旋体毒力决定因子鉴定

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《PLOS Computational Biology》：Machine learning-driven identification of virulence determinants in Borrelia burgdorferi associated with human dissemination

【字体：大中小】 时间：2026年06月19日 来源：PLOS Computational Biology 3.6

编辑推荐：

　　莱姆病是美国最常见的蜱传播感染性疾病，其临床结局具有高度异质性，范围可由局限性游走性红斑发展至累及心脏、关节和神经系统的严重播散性并发症。导致这种表型差异的细菌学决定因素目前在很大程度上仍不清楚，从而限制了对疾病进展的预测能力以及治疗策略的优化。研究人员在此应

莱姆病是美国最常见的蜱传播感染性疾病，其临床结局具有高度异质性，范围可由局限性游走性红斑发展至累及心脏、关节和神经系统的严重播散性并发症。导致这种表型差异的细菌学决定因素目前在很大程度上仍不清楚，从而限制了对疾病进展的预测能力以及治疗策略的优化。研究人员在此应用机器学习（ML）方法，识别表面暴露毒力因子中能够预测人体播散表型的特定氨基酸残基。研究利用已发表的299株临床伯氏疏螺旋体分离株的全基因组序列，这些分离株采集自美国和斯洛文尼亚，时间跨度为30年（1992–2021）。研究人员提取并表征了7种已知毒力因子（BB_0406、BBK32、DbpA、OspA、OspC、P66和RevA）的翻译氨基酸序列（变体）。依据临床元数据，按其与播散性感染或局限性感染的关联对蛋白变体进行分类。Cramér’s V分析显示，播散表型与5种黏附素之间可能存在较强关联：BBK32、DbpA、OspC、P66和RevA。研究人员采用5种算法并结合多种特征选择策略建立机器学习模型，对DbpA、OspC和RevA变体取得了稳健的预测性能（所有性能指标均＞0.7）。特征重要性分析分别鉴定出DbpA、OspC和RevA的57、29和42个关键预测残基。值得注意的是，B细胞表位预测显示，机器学习识别的残基在OspC的预测表位区域中显著富集（11个重叠残基，比值比 OR = 3.57，p = 0.006），在RevA中亦显著富集（12个重叠残基，OR = 2.37，p = 0.048），提示这些残基可能影响免疫识别与细菌持续存留。该研究建立了首个将伯氏疏螺旋体蛋白序列变体与临床播散表型相联系的计算框架，为莱姆病发病机制提供了分子层面的认识，并可能为改进诊断方法和治疗靶点开发提供依据。

该论文发表于《PLOS Computational Biology》，聚焦莱姆病病原体伯氏疏螺旋体（Borrelia burgdorferi，Bb）在人体内由局限性感染向播散性感染发展的分子基础。莱姆病是北半球重要的新发蜱传播疾病，在美国每年诊断和治疗病例超过47万例。其临床表现差异显著，轻者表现为局限性游走性红斑，重者可出现莱姆关节炎、心肌炎和神经系统受累。长期以来，宿主结局差异背后的细菌学因素尚未被充分阐明，尤其是哪些毒力相关蛋白序列变异与播散能力直接相关仍缺乏系统研究。虽然既往研究已经表明质粒组成、毒力因子多样性以及表面脂蛋白的差异会影响病原体在宿主体内的定植、免疫逃逸和组织侵袭，但由于该菌基因组呈线性染色体加多质粒的分段结构，且质粒高度可变，导致测序、组装与比较分析存在明显技术障碍。因此，建立可从蛋白序列层面预测播散潜能的分析框架，对于推进致病机制研究、改善风险分层以及开发更精准的诊疗工具具有重要意义。

围绕这一问题，研究人员整合了299株临床分离Bb菌株的全基因组测序数据及临床播散信息，系统考察7种已知表面暴露毒力因子，即BB_0406、BBK32、DbpA、OspA、OspC、P66和RevA的氨基酸变体，并评估其与播散表型的关系。研究结果表明，BBK32、DbpA、OspC、P66和RevA的蛋白变体与临床播散状态存在较强关联，其中DbpA、OspC和RevA的序列信息可被机器学习模型稳定地区分为播散相关型与非播散相关型。进一步的特征重要性分析鉴定出多组关键预测残基，并显示其中相当一部分位于预测的B细胞表位区域，提示这些位点可能同时参与宿主蛋白结合、免疫识别与持续感染过程。该研究的重要意义在于，首次建立了一个将Bb毒力蛋白氨基酸变异与人类临床播散表型直接连接的计算分析体系，为理解莱姆病发病机制提供了可操作的分子线索，也为未来基于序列的快速诊断和潜在治疗靶点筛选奠定了基础。

研究所用主要技术方法可概括如下：研究样本来源于NCBI BioProject `PRJNA923804`，包含1992–2021年间采集的299株来自美国东北部、美国中西部及斯洛文尼亚的人源临床分离株。研究人员对7种毒力蛋白翻译后的氨基酸序列进行去信号肽、序列比对与变体定义，利用Cramér’s V检验评估蛋白变体与播散表型的分类关联；随后将序列经独热编码（one-hot encoding）转化为特征矩阵，结合特征选择、合成少数类过采样技术（SMOTE）、嵌套交叉验证以及GLMnet、PLS、RF、SVM-RBF、PCANN等算法构建预测模型；并使用AlphaFold 3、DiscoTope 3.0与ChimeraX对B细胞表位及宿主-病原体蛋白互作位点进行结构层面的辅助分析。

在研究结果部分，论文首先以“3.1. Associations of protein variants and dissemination phenotype”为题，分析蛋白变体与播散表型的关联。研究人员从299株临床分离株中提取7种毒力因子的基因并翻译为氨基酸序列，发现每种蛋白含有4至36种独特变体。序列比较显示，DbpA、OspC和RevA具有更分散、幅度更大的变异，而BB_0406、BBK32、OspA和P66整体更保守。Cramér’s V分析进一步表明，BBK32、DbpA、OspC、P66和RevA与播散表型存在强关联，而BB_0406与OspA关联不足，因此未进入后续机器学习分析。卡方残差分析还识别出若干在播散型或局限型感染中显著富集的特定变体，如DbpA_1、OspC A型、P66_1和RevA_22偏向播散表型，而DbpA_25和RevA_36偏向局限表型。

在“3.2. Prediction ability of trained models”部分，研究人员针对5种候选蛋白分别构建了70个模型，总计考察不同重采样策略、算法和特征子集组合的性能。结果显示，基于DbpA、OspC和RevA变体的模型在训练集与测试集上均表现出稳定且较高的判别能力，ROC-AUC、准确率、灵敏度和特异度均超过0.7；相比之下，BBK32和P66模型整体表现较弱。最佳模型组合因蛋白而异，提示最优算法并不存在统一方案，必须针对具体数据集进行系统评估。研究同时比较了留一交叉验证（LOOCV）与Bootstrap两种重采样方式，发现LOOCV整体具有更高性能、更窄置信区间和更小训练-测试性能差距，说明其在小样本蛋白变体分类任务中具有更好的稳定性与泛化性。

在“3.3. Model-based important features”部分，研究人员根据多模型、多分割重复出现频率筛选关键位点，最终在DbpA、OspC和RevA中分别获得57、29和42个重要特征。论文将这些位点界定为“预测残基”，因为它们能有效区分播散相关与非播散相关序列。不同残基在播散组与非播散组中的出现频率存在明显差异，提示这些位点可能是影响播散潜能的关键序列基础。

在“3.4. B-cell epitope prediction”部分，研究人员进一步考察预测残基的免疫学相关性。基于B31株蛋白结构的AlphaFold 3预测和DiscoTope 3.0分析，DbpA、OspC和RevA中分别识别出35、48和49个预测B细胞表位残基。统计检验显示，OspC与RevA中由机器学习识别的预测残基在B细胞表位区域中显著富集，DbpA虽有重叠趋势但未达到统计学显著性。这一结果表明，能够预测播散表型的关键位点并非随机分布，而是倾向于落在可能参与抗体识别的结构区域，从而支持这些位点在免疫逃逸或免疫调控中的潜在作用。

在“3.5. Host-pathogen PPI site prediction”部分，论文探索这些预测残基是否位于宿主-病原体蛋白-蛋白相互作用（PPI）界面。研究人员分别构建了DbpA-decorin、OspC-OspC-plasminogen以及RevA-fibronectin复合物结构模型。由于大多数复合物的界面预测置信度较低，作者明确指出这些模型不足以支持精细的界面解析。不过，在OspC相关复合物中，部分预测残基定位于潜在相互作用位点附近；同时，多数OspC预测残基还位于表面暴露区域。对于DbpA和RevA，若干机器学习识别位点与既往报道的重要结合功能区段在空间或序列区间上存在对应关系，进一步增强了这些残基具有生物学相关性的证据。

讨论部分系统总结了研究的创新点、意义与局限。论文指出，本研究是首个针对Bb蛋白变体与临床播散表型开展的系统性机器学习分析，证明了DbpA、OspC和RevA等表面暴露黏附素（adhesin）在莱姆病播散中的重要性。研究强调，机器学习识别的关键残基与B细胞表位、宿主蛋白结合相关区域存在重合，支持这些位点在宿主组织黏附、免疫逃逸和持续感染中的潜在作用。与此同时，作者也指出研究存在若干限制，包括样本量相对有限、类别不平衡需要SMOTE处理、播散表型二分类可能过度简化真实生物学连续谱、部分模型可解释性有限、结构复合物预测的界面置信度不足，以及未能全面纳入蛋白间协同作用、全基因组上位性互作和临床混杂因素等。因此，未来仍需结合相似性感知数据划分、可解释模型、定点突变实验、结合实验和感染模型进行验证。

研究结论部分可译述如下：本研究表明，机器学习方法能够有效识别病原体基因组数据中具有生物学意义的模式。基于DbpA、OspC和RevA变体构建的模型表现出较强预测能力，且其关键预测残基具有明确的免疫学相关性，这为机制层面的理解和临床应用奠定了基础。本文建立的方法学框架还可能适用于其他存在菌株层面变异并影响疾病结局的细菌性病原体。

联系信箱：

粤ICP备09063491号

热点排行