基于前后向模拟的配对亲子关系分配：利用三体似然和位点特异性错误率优化CERVUS算法

《Ecology and Evolution》：Pairwise Paternity Assignment With Forward–Backward Simulations: Refining CERVUS Using Trio-Based Likelihood and Locus-Specific Error Rates

【字体：大中小】 时间：2025年09月30日 来源：Ecology and Evolution 2.3

编辑推荐：

　　本文提出一种名为“Pairwise”的改进似然算法，通过前后向模拟计算父亲-母亲-后代组合的特异性显著性标准，并整合位点特异性分型错误率，显著提高亲子鉴定分析的准确性。该方法在减少错误分配的同时保持高真阳性率，为复杂遗传关系分析提供更稳健的框架。

1 引言

基因谱系关系为动植物繁殖行为和种群结构研究提供重要见解。谱系信息对定量遗传参数估计至关重要，其准确性直接影响近交系数、遗传变异和有效种群大小等种群参数的计算。DNA分析可纠正谱系错误并提高质量，整合遗传信息不仅能修正不准确性，还能改善预测质量。

短串联重复序列（STR）因其高度多态性和共显性特征，成为亲子分析的革命性标记。Jones和Ardren最初描述四种亲子分析技术，后扩展为六类。当前方法基于多项假设：同质遗传结构、位点一致错误率和基于等位基因频率的随机等位基因替换。COLONY虽能重新估计位点特异性错误率，但这些假设在实际应用中常被违反。

2 材料与方法

2.1 似然方程

采用Marshall等人提出的分型错误模型框架，假设错误发生概率与基因型频率成正比。模型允许错误率随位点变化，用ε_l表示l位点的错误率。在已知母亲基因型情况下，分别计算假设H₁(声称父亲为真父亲)和H₂(非真父亲)的似然值。似然比计分(LOD)计算公式为LOD = log₁₀(L_H1/L_H2)。

2.2 通过LOD评分确定亲子关系

Marshall等人提出判别统计量Δ用于亲子判定。CERVUS算法提供两种模拟选项：真亲本近交和候选亲本间亲属关系模拟。Pairwise LOD模拟通过基于亲本基因型的穷举模拟来估计亲子关系，独立于候选亲本间的谱系或亲缘结构。

2.3 亲子检验的前向模拟

通过多基因座群体遗传学中的前向模拟，找到真亲本的LOD评分分布用于亲子检验。当仅知声称父亲基因型时，第二等位基因从群体频率中生成。模拟过程迭代进行，使用特定p值标准检验声称父亲是否为真父亲。

2.4 亲子分配的后向模拟

采用后向模拟确定所有可能真父亲的LOD评分分布。首先通过后代等位基因的孟德尔抽样推导随机父亲基因型。当母亲基因型已知时，排除可追踪的母源等位基因。模拟过程重复进行，使用特定p值标准从候选雄性中识别真父亲。

2.5 基因组数据模拟

模拟15个STR位点，每个位点10个等位基因。考虑重叠世代，建模突变和分型错误。交配系统基于雄性和雌性配子库的随机结合。模拟分两步：历史世代建立理想等位基因频率，近期种群结构生成。

2.6 各位点分型错误计算

通过识别整个群体中后代与双亲间的不匹配来计算分型错误。选择仅有一个分型错误的母子对和父子对，汇总各位点的父源和母源错误总数。

2.7 寻找显著性标准

使用CERVUS软件确定Δ的显著性标准。Pairwise方法的LOD评分显著性标准基于真父亲的模拟分布确定，确保95%和99%的模拟LOD评分超过阈值。

2.8 准确性计算

通过真阳性(TP)和真阴性(TN)率评估两种方法的准确性。将真父亲和候选雄性的LOD评分与预定显著性阈值比较，计算正确识别父亲的比例。

3 结果

3.1 Pairwise与CERVUS方法比较

CERVUS算法显示出比Pairwise方法更高的TP准确性。Pairwise方法在p=0.01时获得最高TP准确性，母亲基因型未知时为97.60%(±1.12%)，已知时为97.33%(±1.34%)。两种方法从亲子检验到分配的准确性显著降低(p<0.01)。

基于TN率的准确性计算表明，Pairwise方法显著高于CERVUS方法。在已知母亲基因型情况下，Pairwise方法正确识别99.43%±0.53%(p=0.05)和98.85%±0.84%(p=0.01)的随机个体为非亲本。

3.2 真父亲与候选雄性间关系的影响

随着亲缘度增加，无论母亲基因型是否已知，亲子分配中的TP和TN指标均下降。母亲基因型知识减轻了真父亲与候选雄性间亲缘关系对TP率的影响，但使用CERVUS方法时未能阻止TN率下降。

3.3 分型错误假设

考虑不同位点间的可变分型错误比恒定错误假设带来TP率准确性提高。在母亲基因型未知的亲子检验中，TP率从75.78%±3.4%提高到77.78%±3.24%。TP的改善并未显著影响TN率，表明考虑可变分型错误可在不增加错误分配可能性的情况下提高亲子分析性能。

4 讨论

Pairwise方法通过为每个亲本计算特异性临界值，在生态和保护情境中特别有用。该方法基于每个亲子检验具有自身假设分布的概念，不受不同个体中缺失基因型的影响。模拟系统相比先前方法具有显著优势，无需任何先验信息即可确定声称父亲是否为生物学亲本。

亲子推断依赖于后代与亲本间的亲缘结构。研究表明CERVUS在候选亲本中存在近亲时性能下降，而Pairwise方法对这些相似性的敏感性降低，始终获得更高的真阴性准确性。选择方法取决于研究背景：当真亲本可能被采样时CERVUS更优，在不完全采样或亲本信息缺失时Pairwise更可靠。

突变和实验室错误导致基因分型差异，在分析条件下考虑这些不匹配对准确分配或排除亲子关系非常有益。虽然分型错误对分配准确性影响可忽略，但错误增加可能导致准确性降低1%-3%。各种亲子检验方法提出不同分析条件来处理分型错误，但所有方法均假设不同位点间错误率恒定。实际中，分型错误可能因位点而异。

STR已广泛用于亲子分析，但在多态性低的物种中应用受限。随着基因组技术进步，SNP成为实用替代方案。本研究基于STR数据，但Pairwise框架可直接应用于SNP面板，预计将提高分配能力。

5 结论

本研究引入计算亲子关系似然的新方法，增强亲子相关检验性能。通过考虑亲本独特的假设分布，相比先前方法具有显著优势。解决种群内亲缘结构带来的固有挑战，显著提高亲子推断准确性。研究结果强调在亲子分析中考虑不同位点可变分型错误的重要性。该方法不增加真亲本分配数量，而是通过减少错误分配和提高真阴性准确性来增强可靠性，为遗传测试和研究提供更稳健框架。

作者贡献

Mahmoud Amiri Roudbar负责概念化、数据管理、形式分析、方法论、项目管理、软件、监督、可视化和原稿撰写。Seyedeh Fatemeh Mousavi参与概念化、数据管理、形式分析、方法论、可视化和原稿撰写。Mahdi Akbarzadeh负责方法论验证和稿件审阅。Sabrina H. Brounts参与验证和稿件审阅。Mehdi Momen负责概念化、形式分析、方法论、验证和稿件审阅。