生命标识号码(Life Identification Numbers, LIN):一种基于菌株命名法(strain nomenclature)的方法,用于辅助细菌病原体的流行病学监测
《PLOS Biology》:Life Identification Numbers: A strain nomenclature approach to aid epidemiological surveillance of bacterial pathogens
编辑推荐:
:
细菌性病原体流行病学监测与国际微生物学研究交流需要统一的菌株分类学(strain taxonomies)。核心基因组多位点序列分型(core genome multilocus sequence typing, cgMLST)在标准化高分辨率菌株基因分型方
:
细菌性病原体流行病学监测与国际微生物学研究交流需要统一的菌株分类学(strain taxonomies)。核心基因组多位点序列分型(core genome multilocus sequence typing, cgMLST)在标准化高分辨率菌株基因分型方面极具前景,但其面临分类不稳定及新命名法与广泛使用的经典多位点序列分型(multilocus sequence typing, MLST)标识符脱节等挑战。本文论述基于cgMLST的生命标识号码(Life Identification Number, LIN)方法——近期被提出作为一种适用于大多数细菌病原体的稳定多级菌株分类学系统,涵盖LIN编码如何在实践中实施与应用,以实现精确的菌株定义及流行病学追踪。
论文解读:基于cgMLST的生命标识号码(LIN)系统在细菌病原体流行病学监测中的应用
本文发表于《PLOS Biology》。细菌性传染病病原体的菌株分类学是群体生物学、流行病学监测及公共卫生疫情响应的重要基础。目前,细菌种内亚系(sublineages)、变异型、型别或克隆(统称"菌株")缺乏统一的分类(classification)与命名(nomenclature)标准。传统的表型(如血清型)和基因型方法(如经典7基因位点的MLST,定义序列型sequence type, ST)虽标准化但分辨率不足;全基因组测序(whole-genome sequencing, WGS)的出现使基于核心基因组多位位点序列分型(cgMLST,分析数百至数千个保守核心基因位点,定义核心基因组序列型core genome sequence type, cgST)的高分辨率分型成为可能,但cgST因过于细分而失去大尺度亲缘关系追溯能力,且基于单联动聚类(single-linkage clustering)的多级分类缺乏稳定性——新分离株的加入可导致原有群组合并。此外,基于平均核苷酸一致性(Average Nucleotide Identity, ANI)的生命标识号码(LIN)最初面向所有生命域,但ANI在高度相似菌株(尤其碎片化草图基因组)中精度有限。为此,研究人员提出将cgMLST谱的成对相异度替代ANI作为LIN编码依据,构建cgMLST-based LIN码系统,兼具cgMLST对小尺度基因组关系的重现性及LIN的多级稳定分类特性,并整合入BIGSdb和Pathogenwatch平台,通过肺炎克雷伯菌种复合群(Klebsiella pneumoniae Species Complex, KpSC)案例阐明其应用价值。
主要关键技术方法:
研究人员采用已验证的cgMLST方案(以KpSC为例,约2000–4000个核心基因位点)对全基因组测序组装序列进行等位基因(allele)赋值得到cgST;设计多级BIN阈值(按cgMLST等位基因匹配相似度划分,从左至右对应深层系统发育分支至近期进化变异株),以首个选定cgST初始化全零LIN码,后续新cgST匹配数据库中最近似参比cgST,依相似度落入的Pivot bin复制前缀、该bin数值+1、下游bin置0生成新LIN码;处理缺失数据时若两cgST仅在未检出位点不同定义为重合cgST(coincident cgSTs)共享LIN码;通过多数继承规则将既有MLST ST编号赋予对应LIN前缀作为昵称(nickname),如KpSC第3、4级前缀分别对应亚系sublineage(SL)和克隆群clonal group(CG);利用BIGSdb API导出分类学数据,结合Pathogenwatch及命令行工具(如Kleborate中MiST模块)进行外部匹配与部分前缀推断,经系统发育树(maximum likelihood tree基于重组-free可变位点)验证LIN前缀与种群结构的一致性。
研究结果:
Bacterial strain taxonomies(细菌菌株分类学系统述评)
研究人员综述了现有方法局限:SNP谱系命名需频繁更新、PopPunk基于k-mer但非基于固定位点、EnteroBase中HierCC虽实现cgMLST多级分类但群组ID独立生成且无前缀继承性。指出cgMLST-based LIN码融合了ANI-LIN的多级思想与cgMLST位点的精确可重复性,可在PubMLST/BIGSdb维护的统一分类学中兼容经典ST命名。
cgMLST-based LIN coding and missing data handling(cgMLST基础的LIN编码与缺失数据处理)
研究人员阐明LIN码为由预设bin组成的数字序列,左起bin对应深层分歧(低相似度阈值宽),右起对应细微差异(高相似度阈值严)。编码流程为:选初始cgST赋全0码→每新增cgST寻库中最相似参比cgST→按等位基因相似度确定pivot bin→复制参比前缀至pivot bin前→pivot bin取同前缀组最大值+1→其后bin置0。若新cgST与库中某cgST等位基因100%匹配(仅缺失模式不同,即coincident cgSTs),则直接继承其LIN码不新建。此过程保证已有LIN码及赋值永不因新数据加入而改变,具设计稳定性(stable by design)。
The internal structure of LIN codes and the notion of a prefix(LIN码内部结构与前缀概念)
研究人员强调LIN码前缀(prefix,从最左bin起始的任意长度子序列)具上下文依赖性:同整数值仅当上游前缀完全一致才代表同一分组,各前缀下序号从0始独立编排。共享前缀越长基因组cgMLST相似度越高,前缀等价于此前的LINgroup概念,可作遗传相似度的机器可读标志。
Nicknaming LIN code prefixes provides continuity with previous nomenclatures(LIN前缀昵称实现与传统命名衔接)
研究人员在BIGSdb中实现前缀自定义昵称功能,对KpSC采用MLST ST多数继承规则将第3级bin前缀昵称为已知ST编号对应亚系(SL,如prefix 0_0_105=SL258),第4级bin前缀昵称为克隆群(CG,如prefix 0_0_105_6=CG258),保留了经典ST体系的可解释性,同时指出重组可致同ST跨系统发育分支,推荐优先使用LIN昵称。
How to design and use LIN codes(LIN码的设计与使用)
研究人员建议cgMLST方案须预先严格验证且后续不更改位点以保证LIN码一致性;bin数及阈值应参照物种种群结构优化,深层bin可对标已知种/亚种分界(KpSC前两bin区分K. pneumoniae、K. quasivariicola等),流行病学层bin可按暴发调查常用等位基因差异容限(如≤4个allele mismatch)设定。可通过圆形打包图(circular packing plot)或前缀树(prefix tree)可视化LIN层级代表的种群多样性与近似系统关系。
LIN codes in practice: Source databases of taxonomies and their use with external tools(LIN码实践:源数据库与外部工具)
研究人员说明BIGSdb-Pasteur(KpSC)和PubMLST(其他种)为LIN码分类学源头数据库,通过API供Pathogenwatch等平台同步调取;外部工具比对本地基因组cgMLST谱与源库可获最接近匹配及共同前缀(部分LIN码),完全匹配才得完整新码——新cgST须提交源库由 curator 统一分配以维持全球命名一致;本地离线工具(如MiST/Kleborate)适合内部比对但需定期同步源库。
LIN code applications in epidemiological surveillance and outbreak investigations(LIN码在流行病学监测与暴发调查中的应用)
研究人员以KpSC为例展示:LIN码明确区分被经典MLST混淆的多系群,如超毒力ST23实际分属两不同LIN亚系(SL23: 0_0_429和SL218: 0_0_115);SL258(prefix 0_0_105,含ST11/ST258/ST340/ST512等)下辖CG258(0_0_105_6)及更细bin区分ST340、ST437等,并能分辨表型相同(均为ST11-KL64)但系统发育独立的三个地理传播克隆;近 identical LIN码提示潜在传播关联可用于哨点监测预警;长期暴发中随时间分化的 subclade 可用延伸bin唯一标记,已成功标注意大利SL147暴发及波兰多地K. pneumoniae 暴发株。
Future directions and conclusions(未来方向与结论)
研究人员总结cgMLST-based LIN码依托cgMLST标准化与重现性,提供灵活、稳定、多级之菌株分类-命名-鉴定体系,可兼容传统MLST命名并通过前缀共享实现跨机构、跨国界不共享序列数据的菌株同一认定,缓解数据保密壁垒。局限在于依赖中心源库维护及cgMLST方案适用范围(过均一的单态病原菌如Mycobacterium tuberculosis宜用wgsSNP谱系法)。目前已扩展至肺炎链球菌(Streptococcus pneumoniae)、金黄色葡萄球菌(Staphylococcus aureus)、卡他莫拉菌(Moraxella catarrhalis)、淋病奈瑟菌(Neisseria gonorrhoeae)、白喉杆菌(Corynebacterium diphtheriae)等,EnteroBase新版已支持大肠埃希菌(Escherichia coli)和肠道沙门菌(Salmonella enterica),推广中。广泛采纳cgMLST LIN码菌株分类学有望成为标准化细菌基因分型通用方案,显著提升微生物生物多样性研究、国际基因组流行病学及传染性疾病监测水平。