Canis STR-Seq：一种用于狼和郊狼非侵入性基因监测的通用方法

《Ecology and Evolution》：Canis STR-Seq: A Universal Approach for Non-Invasive Genetic Monitoring of Wolves and Coyotes

【字体：大中小】 时间：2026年03月18日 来源：Ecology and Evolution 2.3

编辑推荐：

　　摘要传统上，群体遗传学研究依赖于来自短串联重复（STR）标记（即微卫星）的数据来生成用于群体遗传学研究的个体基因型。然而，传统的毛细管电泳尺寸片段分析在评分方面存在挑战，并限制了不同实验室之间的数据比较。在这里，我们提出了一种新的、成本效益高的通用微卫星基因组测序方法，适用于

　　摘要

传统上，群体遗传学研究依赖于来自短串联重复（STR）标记（即微卫星）的数据来生成用于群体遗传学研究的个体基因型。然而，传统的毛细管电泳尺寸片段分析在评分方面存在挑战，并限制了不同实验室之间的数据比较。在这里，我们提出了一种新的、成本效益高的通用微卫星基因组测序方法，适用于犬科物种，该方法能够明确识别等位基因，标记同质性以进行更准确的分配测试和多样性估计，并提高低模板DNA的基因分型效果。我们注意到在26个位点中有18个存在尺寸同质性，在包含序列突变的数据集中等位基因的数量比仅基于尺寸的数据集多32%（Namut = 334 vs Nalen = 253）。使用贝叶斯聚类分析进行的分配测试在两个数据集中相似，尽管在考虑突变后，84个样本中有64个样本被分配到主要簇中。我们记录并编码了与每个位点相关的序列突变列表，并提出了一个框架，用于构建一个可访问的、通用的STR数据集，适用于狼、郊狼和狗，以改善具有复杂人口统计和杂交模式的群体的簇分配和混合估计。总体而言，该方法提供了一种改进的微卫星遗传监测方法，有助于狼群的保护。

缩写

allele_len：仅基于长度的等位基因调用

allele_mut：基于长度和MRA、FFR、RFR中的点突变的等位基因调用

CE：毛细管电泳

FFR：正向侧翼区域

GBS：基因组测序

MRA：微卫星重复阵列

PCR：聚合酶链反应

RFR：反向侧翼区域

Sc：粪便

SNP：单核苷酸多态性

STR：短串联重复

Ti：组织

1 引言

全球气候变化（Bongaarts 2019）和直接的人为因素（Jaureguiberry等人2022）导致的前所未有的生物多样性丧失，对负责缓解这些影响和保护濒危物种的野生动物专业人士和政策制定者提出了紧迫的挑战。50多年来，群体遗传学在野生动物保护中发挥了关键作用（Charlesworth和Charlesworth 2017），遗传监测对于理解各种生态模式至关重要，包括（但不限于）物种分布、杂交、有效种群规模以及其他灭绝风险指标。随着成本效益高的高通量测序（HTS）技术的出现，全基因组遗传变异的评估对野生动物保护和管理变得越来越重要（Hohenlohe等人2021；Kardos等人2021）。此外，非侵入性遗传监测已成为理解种群动态的常见且通常更可取或必要的方法（Ferreira等人2018；Zemanova 2021）。将HTS应用于非侵入性监测为制定保护政策提供了机会，同时对脆弱和难以捉摸的物种的影响最小（Carroll等人2018；Ibouroi等人2021），如狼（Valière等人2003；Caniglia等人2014；Rutledge等人2017；Dufresnes等人2019；Murphy等人2019）。狼（图1）已经从它们大部分原始分布范围内消失，但仍然是研究最广泛的大型食肉动物之一（Ripple等人2014），这在很大程度上是因为它们的标志性地位以及对人类影响的广泛脆弱性（Marco等人2014；Murray等人2024）。对全球狼群的遗传监测已成为重要的保护工具超过20年（Wilson等人2000；De Barba等人2017；Dufresnes等人2019），非侵入性方法的使用日益增多（Rutledge等人2009；Caniglia等人2014；Stansbury等人2016）。尽管长期以来，毛细管电泳（CE）对短串联重复（STR）微卫星标记的尺寸片段分析一直是生成群体遗传学个体基因型的方法，但这种方法有几个局限性。主要批评包括评分挑战和低模板等位基因丢失导致的数据错误、未检测到的等位基因尺寸同质性，以及不同实验室生成的数据缺乏互操作性（Estoup等人2002；De Barba等人2017）。这些挑战促使许多研究人员转向单核苷酸多态性（SNPs）的基因组测序（Campbell等人2015；Fitak等人2015；von Thaden等人2017；Eriksson等人2020；Zimmerman等人2020；Hayward等人2022）。尽管SNPs通常是精细遗传分辨率的首选标记（Timm 2020），但微卫星对于群体遗传学仍然相关（Hauser等人2021），有时比SNPs更合适。例如，根据高次要等位基因频率（MAFs）的不同，推荐使用不同的SNP标记（用于个体识别、亲缘关系确定或种群划分）或不同的种群（Giangregoria等人2023；Harmoinen等人2025；Hervey等人2025）。相比之下，微卫星标记由于其固有的多态性，更适用于各种任务和种群，而且使用较少的位点即可达到相同的分辨率（Morin等人2009；Haasl和Payseur 2011）。此外，微卫星突变更快（Haasl和Payseur 2011），可以揭示近期分化模式；在亲缘关系分析中，它们优于SNPs（Giangregoria等人2023），特别是对于遗传多样性较低的物种（Hauser等人2021），并且有大量的微卫星开发引物资源可供使用。此外，通过采用一种新的方法，即使用HTS对在单次多重聚合酶链反应（PCR）中扩增的微卫星进行测序，克服了之前使用微卫星和CE分析片段尺寸时遇到的问题（Vartia等人2015；De Barba等人2017；Bradbury等人2018；?arhanová等人2018；Curto等人2019；Salado等人2021）。图1：加拿大安大略省中部Killarney省立公园中的东部狼（Canis sp. cf. lycaon）的追踪相机图像。基因组测序（GBS）微卫星的方法最初用于法医研究（Fordyce等人2011；Scheible等人2011；Neste等人2012），但越来越受到群体遗传学研究的关注。该方法已应用于多种物种和样本类型（Vartia等人2015；De Barba等人2017；Bradbury等人2018；?arhanová等人2018；Curto等人2019；Tibihika等人2019；Eriksson等人2020；Gallagher等人2022；Lepais等人2022；Liu等人2024），在领域内引发了微卫星的复兴。其吸引力在于GBS比传统的CE方法更快、更便宜、更准确、更易于转移。使用CE片段尺寸分析的微卫星的缺点在分析微卫星序列时得到了很大程度的克服，即使对于低模板DNA也是如此（De Barba等人2017），并允许继续使用先前开发的微卫星标记。尽管已经为狼（Stronen等人2022；Hervey等人2025）和郊狼（Eriksson等人2020）开发了一些GBS SNP检测方法，但我们只知道一个实例，其中使用测序微卫星进行犬科物种的基因分型（Salado等人2021）。然而，那项研究仅关注基于长度的基因分型软件包的评估，并未结合通过包含序列突变获得的额外等位基因多样性。在这里，我们提出了一种经过严格测试的犬科物种STR基因组测序方法（Canis STR-seq），该方法提供了一种通用的基因分型方法，可以最小化评分错误，减轻低模板样本的等位基因丢失，识别同质性以提供准确的多样性测量，并提供了一个开放的参考数据库，可用于任何使用该方法的实验室的新数据集。该检测旨在补充现有的GBS SNP检测方法，以扩展狼群保护的群体遗传学工具箱。我们还提供了反映等位基因尺寸同质性的突变代码参考，并提出了一个标准编码系统，以便在各种下游应用中包含这种多样性，如亲缘关系测试、杂合度估计、种群结构推断和祖先推断。该检测可用于任何犬科物种，以了解分布、基因流、杂交和相关性，并在不同时间尺度上推断进化历史（?arhanová等人2018）。总体而言，该方法支持微卫星的复兴，并响应了遗传标记的协调和GBS检测标准化的需求（de Groot等人2016），以改善狼群的保护。

2 材料与方法

2.1 样本选择和筛选

本研究的样本包括新提取并存档的DNA样本，这些样本存储在安大略省彼得伯勒市Trent大学自然资源部的基因组学实验室中，温度为-20°C（数据S7）。对于组织、血液和毛发样本（n = 88）（高模板组织[Ti]样本），我们包括了来自不同犬科物种的代表性样本，包括家犬（C. lupus familiaris；n = 6）、阿尔伯塔省的西部灰狼（C. lupus；n = 6）、阿尔伯塔省的西部郊狼（C. latrans；n = 6）、安大略省中部的东部狼（C. sp. cf. lycaon；n = 6）、安大略省北部的五大湖-北方狼（C. lupus × lycaon；n = 6）以及安大略省南部的东部郊狼（C. lycaon × latrans；n = 6），以及安大略省南部的未知或混合样本（Canis sp.；n = 52）。对于粪便样本（n = 22）（低模板粪便[Sc]样本），我们使用了之前收集并存储在-20°C的样本，直到进行处理。我们根据制造商的协议使用EZNA组织DNA试剂盒（OMEGA）或DNeasy血液和组织提取试剂盒（Qiagen）提取DNA，并进行了一些修改（见数据S2）。对于测序，我们只包括了通过筛选阶段的粪便样本（图2），这些样本包括：（1）在犬科线粒体DNA控制区域标记处成功扩增，以确保样本来自犬科物种而不是红狐（Vulpes vulpes），然后是（2）在核微卫星标记处成功扩增，以确保核DNA的充分扩增（数据S2）。

2.2 STR标记选择、引物重新设计和初步测试

最初从先前发表的工作中选择了33个微卫星标记，这些标记针对常见的二核苷酸和四核苷酸标记，扩增片段长度≤220 bp（数据S5）。我们还包括了一个犬科Amelogenin性别标记（Yan等人2013）。正向和反向引物是根据ROS_Cfam_1.0狗参考基因组（GCF_014441545.1）在Geneious Prime 2024.0.7中重新设计的，目标产品长度为100–150 bp，引物长度在17至24 bp之间，熔解温度为58°C–62°C，配对引物之间的最大差异为5°C，GC含量为40%–60%，同时避免发夹结构和二聚体。选择常见的特异性和较短的靶标长度是为了：（a）在单次扩增中实现所有位点的均匀扩增，（b）通过配对末端300循环测序实现双向完全覆盖，（c）创建更短的片段，以改善来自非侵入性或历史样本的片段化DNA的结果。我们希望使用这种方法对包含潜在猎物混合物的粪便样本进行检测，因此我们还在Primer-BLAST中测试了新的引物组合（Ye等人2012）（不匹配设置为≤3 bp，最大片段大小为1000 bp），针对红狐（Vulpes vulpes）、白尾鹿（Odocoileus virginianus）、麋鹿（Cervus canadensis）和海狸（Castor canadensis），以及狗基因组的其他区域（数据S5）。作为初步筛选，我们排除了两对引物（Cfam_STR006和Cfam_STR028），因为它们的片段要么太大，要么扩增效果不佳，因此在这个阶段剩下31对STR引物和Amelogenin性别标记。

2.3 DNA文库制备

我们准备了两种不同的测序文库：一种高模板文库，使用从组织样本（Ti）中提取的DNA（n = 88；数据S7）；另一种低模板文库，使用从通过筛选的粪便样本（Sc）中提取的DNA（n = 22；数据S7）。两个文库在整个过程中都包含了额外的无模板阴性对照。每个样本的测序文库都是根据两步协议创建的。首先进行单次多重PCR扩增31个微卫星位点和性别标记（PCR1），然后进行第二次反应（PCR2），以连接Nextera XT唯一的双索引（N7XX和S5XX），从而在测序后能够明确识别每个个体样本。对于PCR1，我们使用了Platinum Multiplex PCR Mastermix（产品编号4464269；Applied Biosystems），在单次25 μL反应中（2 μL 1.6 μM引物混合物，4 μL DNA，12.5 μL mastermix，6.5 μL水）。PCR1的反应条件如下：初始激活步骤为95°C 15分钟，然后是30个循环，每个循环94°C 30秒，63°C 90秒，72°C 90秒，最后在72°C下延伸10分钟。PCR后使用magnetic AMPure XP Beads（Beckman-Coulter）进行清洁，珠子与DNA的比例为1.0×，最终洗脱体积为50 μL。然后在PCR2过程中向清洁后的产物中添加索引，包括5 μL清洁后的PCR1扩增产物，25 μL NEBNext Ultra II Q5 PCR Mastermix（产品编号M0544L，New England Biolabs），5 μL Nextera XT Index 1（N7XX），5 μL Nextera XT Index 2（S5XX）（产品编号）。FC-131-2001；Illumina）和10 μL的分子级水，最终反应体积为50 μL。PCR2在以下条件下进行：初始激活98°C 30秒，然后是8个循环，每个循环包括98°C 10秒、67°C 75秒，最后在67°C下延伸5分钟。PCR2产物使用磁性AMPure XP珠子（Beckman-Coulter）进行清洗，珠子与DNA的比例为1.0:1，并在25 μL的洗脱缓冲液中洗脱。然后使用Quant-iT PicoGreen dsDNA试剂盒（目录号P7589；Thermofisher）和Infinite 200 Pro平板读取器（Tecan）对单个扩增子文库进行定量以测量荧光。文库被标准化至4 nM，并等摩尔混合成一个最终的4 nM文库——一个用于组织样本，一个用于粪便样本。混合文库的浓度使用Quantifluor ONE dsDNA系统（目录号E4871；Promega）和Quantus手持式荧光计（Promega）根据制造商的协议进行确认。混合文库的预期大小分布使用E-Gel power snap电泳系统（目录号G8300；Thermofisher）和50 bp DNA梯度（目录号10488090；Thermofisher）进行确认。

2.4 测序、基因分型和错误

混合文库被准备用于在Illumina MiSeq平台上进行2 × 150 bp的高通量测序。文库用杂交缓冲液稀释至6 pM，用氢氧化钠变性，并加入30% PhiX对照v3（目录号FC-110-3001；Illumina）以处理低复杂度文库。基于个别索引的多路复用由Illumina MiSeq软件自动完成。组织（Ti）样本使用MiSeq Standard Kit v2（300循环）（目录号MS-102-2002；Illumina）进行测序，粪便（Sc）样本使用MiSeq Reagent Micro Kit v2（300循环）（目录号MS-103-1002；Illumina）进行测序。我们使用SatAnalyzer工具包中的Seq2Sat（Liu等人，2024年）根据读取质量、读取深度、读取比例、序列组成和长度来分析序列读取并调用基因型，然后进行视觉检查和手动校正。SatAnalyzer参数设置如下：引物对的不匹配数：2；等位基因的最小读取数：10；侧翼区域的最大不匹配百分比：0.5；当大小差异=1 ssr单位时，前两个最大等位基因的读取比例：0.7；当大小差异=2 ssr单位时，前两个最大等位基因的读取比例：0.2；等位基因的最大读取比例的最小百分比：10；两个等位基因变体的最大比例：1.5；最小读取质量分数：20；读取的最小长度：80 bp；性别引物对的最大不匹配数：2，性别比例的最大不匹配数：2，性别等位基因的最小读取数：20，Y/X等位基因的读取比例：0.02，每个性别变体的最小读取数：10，以及线程数：2。根据初步评估，我们排除了五个额外的位点，因为这些位点存在1 bp等位基因移位（Cfam_STR003，Cfam_STR025）的证据，以及与可视化评分四核苷酸标记（Cfam_STR005，Cfam_STR023，Cfam_STR024）相关的挑战，这些标记是为二核苷酸标记开发的（不能有效显示四核苷酸 stutter模式），剩下26个微卫星和性别标记（数据S5）用于评估基因分型错误。为了验证新的STR引物（n=26）并将CE基因型与新Canis STR-seq测序的基因型进行比较，我们使用新设计的引物在ABI3730遗传分析仪（Applied Biosystems）上对Canis组织DNA的子样本（n=15）进行了单倍体反应，并用6FAM荧光标记的前引物进行大小片段分析（数据S2）。CE基因型通过Genemarker v7.1（SoftGenetics）自动评分确定，必要时进行视觉检查和手动校正。根据CE单倍体和STR-seq的比较峰形和基因型调用结果（数据S3），我们整合了两种方法的基因型调用结果，并为Canis STR-seq测序建立了评分标准（图S5）。请注意，Peak Morphology Comparisons文档为那些更熟悉CE峰形但希望使用STR-seq方法的人提供了视觉参考。

2.5 基因分型错误

组织样本和粪便样本的STR-seq运行分别由两位熟悉数据和评分标准的不同人员使用SatAnalyzer（Liu等人，2024年）独立分析和评分。我们使用R包allelematch v2.5.4（Galpern等人，2012年）来识别重复样本和两个数据集中的评分错误。样本CP-2023-007和样本CP-2023-071被识别为同一个体，因此样本CP-2023-071被排除在进一步分析之外。同样，样本CP-2023-009和CP-2023-064也被识别为同一个体，因此样本CP-2023-064也被排除。最后，样本CP-2023-058和CP-2023-059被识别为样本CP-2023-008的同一个体，因此CP-2023-058和CP-2023-059也被排除在进一步分析之外。这些重复样本最初是在不知情的情况下包含在内的，但通过将新测序的数据与之前的CE基因分型数据进行比较，确认了它们是重复样本。对于组织样本，这留下了84个个体在26个位点上有两个独立的评分。对于粪便数据集（n=22），两个样本（CP-2023-146和CP-2023-147）根据独立评估被识别为具有混合的谱型，因此被排除在进一步分析之外。初步评估显示CP2023-2023-087和CP2023-089是同一个体，因此CP2023-089也被排除在进一步分析之外。此外，三个配对评分仅因为数据缺失而不匹配（CP2023-099、CP2023-111和CP2023-129），表明质量较差，因此这三个低质量样本也被排除，留下16个粪便样本进行进一步分析。请注意，样本CAN004247和CAN004248是包含在粪便文库中的阳性组织对照，因此它们从粪便样本的错误率计算中移除。我们使用Rutledge等人（2017年）之前用于微卫星数据的方法，对26个微卫星和一个性别标记的多基因座数据集（含84个组织样本和16个粪便样本）的评分错误进行了评估。为了评估组织数据的评分错误，我们将168个基因型的数据集（84 × 2个独立评分）通过allelematch（Galpern等人，2012年）进行处理，允许4个不匹配，这是根据amUniqueProfile图推荐的。同样，对于粪便样本，我们将32个基因型（16 × 2个独立评分）通过allelematch进行处理，允许6个不匹配，这也是根据amUniqueProfile图推荐的。对于每个数据集，我们计算了每个位点的错误率、所有位点的错误率、当组织数据中错误率>0.08的位点被移除时的错误率，以及当组织数据中错误率>0.05的位点被移除时的错误率。我们还评估了独立SatAnalyzer调用之间的性别识别差异，并将其与基于CE和/或现场性别ID的已知性别进行了比较。

2.6 微卫星大小同质性

我们根据SatAnalyzer的组合样本输出文件（即sampleID_genotypes_mra_final.txt输出文件）评估了组织样本每个位点每个等位基因的大小同质性。这些文件显示了微卫星重复阵列（MRA）、正向侧翼（FF）和反向侧翼（RF）区域中的突变位置。虽然测序错误可能导致等位基因的同质性，但这种情况很少会影响到等位基因的调用，而多个样本中相同的突变证据表明这些突变代表了同质性。我们创建了一个自定义的Python脚本（allele_muts.py；Rutledge和Rutledge 2025）来评估和编码MRA、FF和RF区域中的变异。输出将序列突变纳入等位基因调用（allele_mut）中，通过为每个区域的突变分配唯一的2位代码，从而得到8位或9位的等位基因调用（取决于等位基因长度是大于还是小于100 bp），格式如下：AAAMMFFRR，其中AAA是基于长度（allele_len）的等位基因代码，MM是MRA突变代码，FF是snpsFF突变代码，RR是snpsRF突变代码（数据S1）。例如，如果一个样本在Cfam_STR001位点的等位基因调用为96，在MRA、snpsFF或snpsRF中没有突变，则等位基因调用将是96000000。同样，如果一个样本在Cfam_STR007位点的等位基因调用为109，但在MRA中有第二个记录的突变（代码=“02”），在snpsFF中没有突变（代码=“00”），在snpsRF中有第三个记录的突变（代码=“03”），则等位基因调用将是109020003。这些数据在编译后，考虑了每个位点每个等位基因的同质性多样性，可以通过引用突变代码轻松解码（数据S4）。

2.7 遗传多样性和种群结构

我们使用来自组织（Ti）数据集的84个个体的26个位点的合并基因型，通过GenAlEx 6.503（Peakall和Smouse 2012）计算多样性和杂合度估计，并基于仅表示长度的标准等位基因数据集（allele_len）和将序列突变纳入等位基因调用的突变数据集（allele_mut）推断种群结构；我们还在没有狗参考组（n=6）的情况下进行了分析，以更全面地了解这些数据可能对分配值产生的影响，并基于非侵入性样本的allele_len粪便（Sc）数据集评估祖先。我们使用Structure v2.3.4（Pritchard等人，2000；Falush等人，2003；Hubisz等人，2009）中的F模型推断种群结构和混合情况，进行了5次运行，K=1到K=10，每次运行包括150,000次燃烧和1,500,000次迭代。我们使用StructureSelector（Li和Liu 2018）通过多种方法估计最佳簇，并使用CLUMPP v1.1.2（Jakobsson和Rosenberg 2007）和GREEDY选项以及1000个随机输入顺序重复来合并Structure输出文件。最终分配值（包括allele_len和allele_mut Ti数据集以及allele_len Sc数据集）被记录下来（数据S6），并根据最佳簇将结果可视化（图S8）。我们报告了包括狗参考组的allele_len和allele_mut Ti样本的分配结果，以及不包括狗参考组的allele_len Sc样本的分配结果，其中Q≥0.8的被分配到已知簇，Q<0.8的被认为是混合的。

3 结果

3.1 测序、基因分型和错误

组织样本的测序输出包括34,181,810个总读取，其中16,741,956个读取被分配给Canis STR-seq扩增子（平均每个样本分配了53.5%的读取）。粪便样本的输出包括7,282,378个读取，其中107,238个读取被分配给测序扩增子（平均每个样本分配了50.1%的读取）。未分配的读取归因于低质量读取、多余的接头序列和30%的PhiX对照添加（以处理低复杂度文库）。读取数量远高于Liu等人（2024年）推荐的每个位点150个读取，并且每个测序运行中的样本（Ti和Sc）之间分配的读取通常是一致的（见表S1和图S6、S7）。SatAnalyzer产生了准确的基因型，并且对粪便样本进行了有效的分类。简单CE数据和Canis STR-seq数据的比较提供了有用的比较形态学信息（数据S3），以建立评分标准（数据S2）。大多数评分在两种方法之间是一致的，但两种方法都标记了一些问题。CE评分的错误与错误的分箱、过饱和或高stutter有关，这些都没有被计为等位基因；所有这些都被检查并且CE评分得到了纠正。STR-seq评分的主要问题是由于小等位基因的优先扩增而错过了大尺寸等位基因。我们注意到在三个样本（CAN006169；CP2023-036；和CP2023-040）中，Cfam_STR032在MRA区域末端有一个1 bp的插入，导致allele_len为82，并且被allele_len为81和83的等位基因所包围（数据S4）。对于在26个位点上评分的组织样本，allelematch正确地将重复基因型配对，识别出84个独特的个体。其中，28个个体的评分为1（0个不匹配），26个个体的评分为0.98（1个不匹配），26个个体的评分为0.96（2个不匹配），4个个体的评分为0.94（3个不匹配）。所有组织样本和所有26个位点的多位点错误率为2.1%，但当排除错误率≥0.05的位点后，错误率降低到0.8%（表1）。大多数错误是由于错过了大尺寸等位基因的调用（38.2%）和错过了主要等位基因的前端stutter占读取的50%的等位基因调用（32.6%）。剩余的错误是由于当读取序列至少达到主要等位基因的80%时，未能对回声性 stutter 等位基因进行评分（12.4%）、遗漏了小的等位基因调用（14.6%），以及将本应作为缺失数据处理的混合或无法识别的等位基因错误地进行了评分（2.2%）。表1显示了组织（Ti）样本（n=84）和粪便（Sc）样本（n=18）的多基因位点评分错误情况。

| Locus | 数量错误（Ti） | 错误率（Ti） | 数量错误（Sc） | 错误率（Sc） |
|---------|---------|---------|---------|---------|
| Cfam_STR001 | 5 | 0.030 | 1 | 0.028 |
| Cfam_STR002 | 0 | 0.000 | 0 | 0.000 |
| Cfam_STR004 | 3 | 0.018 | 0 | 0.000 |
| Cfam_STR007 | 1 | 0.006 | 0 | 0.000 |
| Cfam_STR008 | 2 | 0.012 | 0 | 0.000 |
| Cfam_STR009* | 15 | 0.089 | 7 | 0.194 |
| Cfam_STR010 | 0 | 0.000 | 1 | 0.028 |
| Cfam_STR011 | 0 | 0.000 | 0 | 0.000 |
| Cfam_STR012** | 9 | 0.054 | 4 | 0.111 |
| Cfam_STR013 | 1 | 0.006 | 0 | 0.000 |
| Cfam_STR014 | 4 | 0.024 | 1 | 0.028 |
| Cfam_STR015 | 0 | 0.000 | 1 | 0.028 |
| Cfam_STR016 | 1 | 0.006 | 0 | 0.000 |
| Cfam_STR017 | 1 | 0.006 | 0 | 0.000 |
| Cfam_STR018 | 0 | 0.000 | 0 | 0.000 |
| Cfam_STR019* | 16 | 0.095 | 1 | 0.028 |
| Cfam_STR020 | 2 | 0.012 | 0 | 0.000 |
| Cfam_STR021 | 1 | 0.006 | 0 | 0.000 |
| Cfam_STR022 | 1 | 0.006 | 0 | 0.000 |
| Cfam_STR026 | 0 | 0.000 | 0 | 0.000 |
| Cfam_STR027 | 0 | 0.000 | 1 | 0.028 |
| Cfam_STR029 | 0 | 0.000 | 1 | 0.028 |
| Cfam_STR030** | 10 | 0.060 | 2 | 0.056 |
| Cfam_STR031 | 4 | 0.024 | 0 | 0.000 |
| Cfam_STR032 | 1 | 0.006 | 0 | 0.000 |
| Cfam_STR033* | 14 | 0.083 | 1 | 0.028 |

| 总计所有基因位点 | 91 | 0.021 | 21 | 0.022 |
| 总计（错误率>0.08的基因位点） | 46 | 0.012 | 12 | 0.014 |
| 总计（错误率>0.05的基因位点） | 27 | 0.008 | 6 | 0.008 |

注：检测的错误率是针对每个基因位点、所有样本、错误率<0.08的基因位点（移除了3个基因位点——用*标记）以及错误率<0.05的基因位点（额外移除了2个基因位点——用**标记）计算的。对于粪便样本，16个个体在26个基因位点上的等位基因匹配正确，其中6个没有不匹配（0.90），7个有一个不匹配（0.98），2个有两个不匹配（0.96），1个有六个不匹配（0.90——其中两个是由于在Cfam_STR012基因位点上其中一个配对基因型缺失数据）。移除组织数据中识别出的5个高错误率基因位点后，粪便样本的错误率从2.2%降低到0.8%（表1）。对于组织样本的比较，性别分配的独立评分之间只有一处不一致。这是由于一个评分略高于Y/X比率设置的0.02阈值。与CE之前的性别分配相比，女性分配是正确的（并且与该个体的现场ID一致）。所有其他性别分配在CE和STR-seq识别之间都是一致的。对于SatAnalyzer独立运行中的粪便性别比较，基于独立评估的评分有2个不匹配的分配，一个评分显示为女性，另一个被分配为不确定。这些不一致是由于Y/X比率的四舍五入不同造成的（例如，一个比率为0.02并被判定为女性，另一个比率为0.0178并被判定为不确定，还有一个运行中一个比率为0.01被判定为女性，另一个比率为0.008被判定为不确定）。对于粪便样本，有两个样本被判定为不确定，但根据CE的结果是女性，有两个被判定为男性（Y/X比率分别为0.0993和0.05），这表明在未来的运行中应该将Y/X参数提高到至少0.1。

3.2 大小同质性、遗传多样性和种群结构

序列数据分析显示，序列突变和大小同质性在数据集中很常见。我们在MRA、FF和RF区域识别出突变的重复出现，导致26个分析基因位点中有18个出现同质性（表2）。当等位基因调用包括序列突变（allele_mut）时，总体遗传多样性高于仅基于长度（allele_len）的等位基因调用。等位基因的总数从allele_len数据集中的253个增加到allele_mut数据集中的334个，观察到的杂合度从0.69（SE ±0.03）增加到0.71（SE ±0.02）。表2显示了本研究中检测到同质性的等位基因比例。个体数量=84，基因位点数量=26。

| 基因位点名称 | 片段大小类别数量 | 具有同质性的大小类别数量 | 具有同质性的大小类别比例 | 仅以突变版本出现的大小类别数量 |

| Cfam_STR001 | 12 | 0 | 0.00 | 0 |
| Cfam_STR002 | 9 | 4 | 0.44 | 1 |
| Cfam_STR004 | 12 | 1 | 0.08 | 0 |
| Cfam_STR007 | 12 | 6 | 0.50 | 3 |
| Cfam_STR008 | 11 | 0 | 0.00 | 0 |
| Cfam_STR009 | 10 | 6 | 0.60 | 0 |
| Cfam_STR010 | 10 | 2 | 0.20 | 0 |
| Cfam_STR011 | 9 | 4 | 0.44 | 1 |
| Cfam_STR012 | 7 | 5 | 0.71 | 1 |
| Cfam_STR013 | 6 | 3 | 0.50 | 4 |
| Cfam_STR014 | 5 | 3 | 0.60 | 3 |
| Cfam_STR015 | 6 | 0 | 0 | 0 |
| Cfam_STR016 | 7 | 1 | 0.14 | 0 |
| Cfam_STR017 | 9 | 1 | 0.11 | 0 |
| Cfam_STR018 | 9 | 1 | 0.11 | 0 |
| Cfam_STR019 | 16 | 1 | 0.06 | 0 |
| Cfam_STR020 | 11 | 0 | 0 | 0 |
| Cfam_STR021 | 6 | 0 | 0 | 0 |
| Cfam_STR022 | 12 | 7 | 0.58 | 7 |
| Cfam_STR026 | 12 | 0 | 0 | 0 |
| Cfam_STR027 | 8 | 0 | 0 | 0 |
| Cfam_STR029 | 9 | 0 | 0 | 0 |
| Cfam_STR030 | 10 | 5 | 0.50 | 0 |
| Cfam_STR031 | 11 | 4 | 0.36 | 1 |
| Cfam_STR032 | 12 | 1 | 0.08 | 0 |
| Cfam_STR033 | 12 | 5 | 0.42 | 0 |

根据StructureSelector（Li和Liu 2018）中实施的各种方法，最佳簇的数量在不同方法和数据集（allele_len与allele_mut）之间有所不同。基于ΔK，所有数据集在K=2时首次将欧亚血统与北美血统分开（图S8）；除此之外，对于包含狗的数据集，ΔK表明allele_len数据集的最佳簇数为K=4，allele_mut数据集的最佳簇数为K=5（图S8a,b）。对于LnProbData，两个数据集的值在K=5或K=6时趋于平稳。Means and Medians方法建议两个数据集的K=6。在两个数据集中，K=4时出现了一个东方狼簇，K=5时进一步区分了东方郊狼和西方郊狼。五大湖灰狼在K=6时继续与西方灰狼聚类，同时出现了一个未知簇（图S9, S10）。然而，我们注意到，在K=6时，这个未知簇的特征仅出现在东方犬科动物种群中，而在狗、西方灰狼或西方郊狼中并未出现（数据S6）。对于排除狗的数据集，方法通常在K=5时达成一致（图S8c,d），并且allele_len粪便数据集也确定了K=5（图S8e）。两个allele_len和allele_mut数据集之间的分配基本一致（图3a,b, S9, S10和S6），但allele_mut数据集在64个样本中分配到主要簇的值更高，而allele_len数据集在19个样本中主要簇的Q值更高，还有一个样本没有变化（数据S6）。总体而言，对于allele_len数据集，基于Structure的Q值的未知样本的分配为：灰狼（n=6），东方狼（n=4），东方郊狼（n=13），混血（n=25）；对于allele_mut数据集，分配为：灰狼（n=10），东方狼（n=3），东方郊狼（n=17），混血（n=15），未知来源（n=3）。排除狗的数据集的分析结果与包含狗的分析类似；西方灰狼和五大湖灰狼形成了一个簇，并且识别出了一个未知簇（图2c,d和数据S6）。我们注意到，排除狗后，一些之前的混血分配变为灰狼（n=5），东方狼（n=4），或未知来源（n=5）；粪便数据集的结果识别出未知粪便样本为东方郊狼（n=4），东方狼（n=4），狗（n=3），和混血（n=5）（图3e和数据S6）。

4. 讨论

我们提出了一种稳健的Canis STR-seq检测方法，该方法利用Illumina高通量测序技术对扩增子进行测序，顺应了人们对微卫星研究的重新兴趣。该检测方法避免了基于CE的大小片段分析的传统微卫星基因分型的陷阱，并提供了一种经济高效的方式，可以在单次测序运行中同时对数百个样本进行测序。总体而言，新方法产生了高度可重复的基因型，并采用了一种通用的工作流程，解决了毛细管电泳微卫星基因分型的主要问题。

4.1 测序、基因分型和错误

平均每个基因位点的测序读取次数远高于Liu等人（2024）推荐的150次读取次数（表S1），并且Ti和Sc样本的分配读取次数总体一致（图S6, S7）。基于序列的基因分型方法在27个基因位点上为各种Canis物种（血液、组织、毛发和粪便）产生了高度准确的谱型，并提供了一个包含序列突变的基线数据集，以反映真实的多样性。尽管三个基因位点的评分错误率较高，另外两个基因位点的评分错误率适中，但通过增加对数据分析工作流程的熟悉度、至少由两个人进行独立评分，并遵循特定的评分标准（Liu等人2024），可以降低错误率。虽然需要一些时间来熟悉SatAnalyzer及其功能，但我们发现使用SatAnalyzer进行评分非常准确，并提供了一个易于直观检查和手动纠正高通量测序数据的等位基因调用的平台。与传统需要专有软件的片段分析相比，它有几个优点：首先，它是开源的，因此不需要购买或订阅软件平台，并且可以在Windows和Linux环境中有效运行（Liu等人2024）。尽管我们无法在配备M1芯片技术的新MacOS上运行SatAnalyzer，但这并不妨碍在没有SatAnalyzer网络界面的情况下使用命令行中的Seq2Sat。其次，评分更简单，因为：（a）突变的可视化表示使得区分等位基因和stutter更容易；（b）没有荧光染料，因此引物成本更低，也没有由于染料相互作用导致的问题；（c）它可以检测到读取次数很少的等位基因（例如，建议至少150次读取，但实际上只需要10次）；（d）不需要对等位基因进行分箱，也不需要根据不同的基因分型运行来调整或扩展分箱；（e）它标记了同质性，从而能够准确反映等位基因的多样性。来自组织样本的STR-seq数据的错误率与之前使用较少基因位点的CE面板的多基因位点估计结果一致（Bonin等人2004：18个标记：0.8%）和狼粪便（Rutledge等人2017：12个标记：0.5%）。在组织检测中确认的重复样本以及在组织和粪便测序运行中包含的两个阳性对照样本（CAN004247和CAN004248）的基因型一致，验证了该检测方法的可重复性，证明了该过程用于追踪个体的可靠性。性别鉴定中的不一致性非常低，通过参考现场数据和之前的遗传性别鉴定结果来调整Y/X比例的参数化可以很容易地解决这些问题；我们注意到，其中一次实验使用的是较旧版本的SatAnalyzer Linux软件，而另一次（结果不确定的实验）则使用了较新的Windows版本，这表明无论使用何种平台，都应使用最新版本的软件。

4.2 大小同质性、遗传多样性和种群结构

我们报告了传统用于狼基因分型的STR标记存在较高的同质性。这与其他研究结果一致，这些研究指出44.7%至63.5%的位点存在导致多个等位基因具有相同片段长度的突变（?arhanová等人，2018年），这表明之前的微卫星研究可能低估了观察到的杂合性。尽管同质性的存在不一定影响个体鉴定，但我们的结果显示，在考虑同质性后，杂合性略有增加（总体增加了0.02）。包含突变的贝叶斯聚类分析提高了聚类区分的能力，并使得主要群体的分配更加可靠，这可能是因为某些突变与特定的犬科祖先类型高度相关。我们怀疑，对于那些具有显著突变特征的等位基因（例如，在侧翼区域），这些等位基因与特定的祖先有关联。然而，在K=6时出现的一个“未知”群体（包括狗）以及在K=5时出现的群体（不包括狗）可能是：(a) 代表未知祖先特征的幽灵群体（Guillot等人，2005年），(b) 可能不代表真实生物分类的虚假群体（Puechmaille，2016年），或者(c) 代表来自安大略省同一地区的区域家族群体。虽然我们注意到不同数据集之间的分配存在一些变化（数据S6），但我们认识到参考种群的小样本量可能会影响我们解析这些变化的能力。因此，应谨慎解释具体的Q值。建立更大的参考数据库将是未来大规模监测的重要步骤。然而，在多个个体中发现新的等位基因序列有可能揭示物种或种群特有的私有等位基因，这对于未来研究中的杂交和混合评估非常有用。我们注意到某些等位基因突变分数似乎仅出现在东部地区的样本中，而在西部地区则不存在，这表明可能存在东部狼的祖先背景；通过使用包含更大样本量、来自更广泛地理范围的更大数据集进行更彻底的分析，将有助于澄清特定等位基因的祖先背景并解决聚类异常问题。将粪便样本分配到东部郊狼、东部狼和狗的群体中，支持了使用该检测方法对东部狼在其分布范围内进行非侵入性监测的可行性。

5 结论

在群体遗传学中，SNP基因分型的趋势日益明显，有些人认为SNP在群体遗传学中比微卫星具有许多优势（Fitak等人，2015年；Eriksson等人，2020年；Hayward等人，2022年；Hervey等人，2025年）。然而，这些优势通常与传统的毛细管电泳微卫星基因分型方法所面临的挑战有关，并不一定适用于已测序的微卫星数据。在一项比较了三种序列数据（SNP、微卫星、非重复核位点）的研究中，广泛空间尺度上的结果没有差异；尽管SNP数据在细空间尺度上更有效地检测到了遗传结构，但位点和等位基因的数量影响了所有标记组的分辨率（D'Aloia等人，2020年）。这些结果表明，将突变纳入微卫星序列数据可以为检测遗传结构提供额外的细尺度分辨率。此外，微卫星仍然适用于个体鉴定、非侵入性监测、种群结构推断（Haasl和Payseur，2011年；Timm，2020年）以及其他种群过程（Hauser等人，2021年）。实际上，当比较GBS SNP检测和GBS STR（微卫星）检测时，SNP的许多优势会减弱，这使得在某些情况下微卫星成为更优的选择（Morin等人，2009年；Haasl和Payseur，2011年；Hauser等人，2021年）。此外，微卫星的测序提供了SNP数据以及片段长度数据，为更全面地探索负责微卫星进化的突变模型提供了机会。Canis STR-seq检测方法代表了实现狼种群遗传监测（包括非侵入性方法）的第一个步骤，并为未来的研究提供了基础参考数据集，研究人员可以采用这一方法进行扩展（de Groot等人，2016年）。我们建议，正如其他人之前所做的那样，微卫星仍然是有效、经济实惠且有时更适用于群体遗传学研究的标记（Hodel等人，2016年；Timm，2020年；Hauser等人，2021年），并且GBS技术促进了微卫星的复兴。关注提供一种通用方法来提供开放访问的参考数据集，期待已久的基因分型方法整合得到了实现，这为全球狼保护的合作框架提供了支持。

作者贡献

Emily Walker：正式分析（支持）、调查（平等参与）、方法论（平等参与）、项目管理（支持）、验证（平等参与）、撰写——初稿（支持）。

Brent R. Patterson：资金获取（支持）、项目管理（支持）、资源提供（支持）、撰写——审阅和编辑（支持）。

Glen A. Rutledge：方法论（支持）、软件（主导）、撰写——审阅和编辑（支持）。

Linda Y. Rutledge：概念化（主导）、数据管理（主导）、正式分析（主导）、资金获取（主导）、调查（主导）、方法论（平等参与）、项目管理（主导）、软件（支持）、监督（主导）、验证（平等参与）、可视化（主导）、撰写——初稿（主导）、撰写——审阅和编辑（主导）。

致谢

感谢Tyler Wheeldon对候选微卫星标记的初步文献筛选以及提供样本的元数据记录。

资金

本项目的资金由加拿大核实验室提供，该实验室作为CANDU Owners Group Inc.的行政代理。

伦理声明

本研究中使用的组织和血液样本要么来自持证猎人或陷阱捕捉者，要么来自作为其他研究项目的一部分被活捉并佩戴无线电项圈后释放的动物。所有捕捉和处理方法均获得了安大略省自然资源部动物护理委员会（协议编号75-05至75-20）和特伦特大学动物护理委员会（协议编号08039、20318）的批准。

利益冲突

作者声明没有利益冲突。

数据可用性声明

所有数据和支持信息均可通过Dryad仓库获取（https://doi.org/10.5061/dryad.02v6wwqgb）。allele_muts.py代码可在GitHub仓库获取（DOI: https://doi.org/10.5281/zenodo.15794713）。

热点排行