基于顶级单倍群与单核苷酸变异进行线粒体基因组频率估算的新方法MitoFREQ

《Forensic Science International: Genetics》:MitoFREQ: A novel approach for mitogenome frequency estimation from top-level haplogroups and single nucleotide variants

【字体: 时间:2026年05月28日 来源:Forensic Science International: Genetics 3.2

编辑推荐:

  法医系谱标记因其证据价值难以量化而在法医遗传学中构成挑战。系谱标记的人群频率可作为表达证据价值的一种方式。然而,对于某些标记,例如高质量的全mtDNA基因组序列(线粒体基因组),其人群数据仍然有限。本文提出了一种名为MitoFREQ的新方

  
法医系谱标记因其证据价值难以量化而在法医遗传学中构成挑战。系谱标记的人群频率可作为表达证据价值的一种方式。然而,对于某些标记,例如高质量的全mtDNA基因组序列(线粒体基因组),其人群数据仍然有限。本文提出了一种名为MitoFREQ的新方法,用于估算线粒体基因组的群体频率。该方法利用了线粒体基因组资源HelixMTdb和gnomAD,它们分别包含了来自195,983个和56,406个线粒体基因组的信息。HelixMTdb和gnomAD均不能直接查询单个线粒体基因组的频率,但它们为30个“顶级”单倍群(TLHG)提供了单核苷酸变异(SNV)等位基因频率。这些顶级单倍群主要对应于主要mtDNA单倍群(例如A、B、C、D、E等)的首字母,但L0、L1、L2、L3、L4-6、HV以及R/B单倍群除外。研究人员提出利用HelixMTdb和gnomAD资源,通过将给定的线粒体基因组归类到TLHG框架内,然后使用其在该TLHG内稀有SNV的频率乘以TLHG的频率来估算频率。研究表明,与使用更精细的单倍群及其SNV频率相比,此方法保证能提供更高的群体频率估算值。此外,研究证明,仅通过使用227个特定位置,即可对99.9%的受试线粒体基因组实现顶级单倍群的判定,这使得该方法有可能适用于低质量样本。该方法在两种类型的数据集上进行了测试:高质量的法医参考数据集和来自GenBank的经过严格审查的多样化线粒体基因组集合。这种双重评估表明,该方法在经过整理的法医数据和更广泛的人群水平序列中均表现出稳健性。该方法产生了介于100至100,000范围内的似然比(LR),证明了其在加强mtDNA法医证据的统计评估方面的潜力。研究人员开发了一个开源的R软件包mitofreq来实现该方法,其中包含一个Shiny应用,可提供自定义的TLHG频率。
在法医遗传学领域,依赖mtDNA证据的诸多情境,例如涉及毛干、历史遗骸或非常远的母系亲属(超出了检测核遗传关系的限度,即九代或更多代以上的分离)的案件,都将受益于线粒体基因组群体频率估算的改进。本研究的核心问题在于,现有的线粒体基因组数据库,如法医专用的EMPOP数据库,其样本量(约10,648个)相对于全球人口而言微不足道,难以满足法医实践中对罕见谱型频率估算的需求。尽管生物医学和人群遗传学领域构建了更大的数据库,如HelixMTdb(约195,983个样本)和gnomAD(约56,406个样本),但这些数据库无法像法医谱型搜索那样通过完整的序列字符串进行直接查询,从而限制了其直接应用。因此,亟需开发一种新方法,以充分利用这些大规模资源,即使是在样本降解严重、仅能获得部分序列信息的情况下,也能为法医mtDNA证据提供可靠的频率支持。

为解决上述问题,研究人员提出并验证了一种名为MitoFREQ的新方法。该方法的核心思想是,不依赖对完整线粒体基因组序列的直接匹配查询,而是利用线粒体基因组所属的“顶级”单倍群(TLHG)及其内部一个罕见单核苷酸变异(SNV)的频率信息来估算其群体频率。具体而言,对于一个给定的线粒体基因组,首先确定其TLHG类别,然后找到该基因组中在该TLHG内频率最低的稀有SNV,并用该SNV的频率乘以该TLHG的整体频率,以此作为该线粒体基因组的频率估算值。该方法具有几个关键优势:首先,它仅需少量信息即可操作,使得方法对低质量、不完整的样本具有鲁棒性;其次,理论推导表明,与使用更精细的单倍群划分和SNV频率的方法相比,该方法给出的频率估算值必然更高(更保守),从而增强了证据的评估力度。

为实现这一研究,研究人员采用了几个主要的关键技术方法。首先,利用EMPOP/SAM2工具推断线粒体基因组的TLHG类别,并系统验证了仅使用227个特定位置即可实现高达99.9%的准确推断,证明了该简化判定方案的可行性。其次,该方法充分利用了HelixMTdb和gnomAD这两个大型公开数据库中提供的、分属于30个TLHG的SNV频率数据,作为频率估算的基础。再者,研究人员在两个独立的数据集上对方法进行了验证:一是高质量的法医参考数据集,二是来自GenBank的经过严格审查的多样化线粒体基因组集合,这种双重验证确保了方法在不同数据背景下的稳健性。最后,为了便于推广应用,研究人员开发了开源的R软件包`mitofreq`及配套的Shiny应用,使得用户能够方便地实施该方法,甚至提供自定义的TLHG频率。

研究结果主要体现在以下几个方面。关于“顶级单倍群的推断”部分,研究表明,通过使用仅有的227个特定位置,即可对来自不同数据集的受试线粒体基因组实现准确的TLHG分类。对这些位置进行SAM2分析,其排名第一的预测结果在所有测试数据集中都显示出极高的一致性(超过99%),对于极少数不一致的情况,通过引入排名第二的预测进行分析,进一步解释了差异的来源,证实了该简化判定方案的高效性。关于“方法验证”部分,研究人员通过双重数据集评估证明了MitoFREQ方法的稳健性。无论是在用于方法开发的高质量法医参考数据集上,还是在更广泛、多样化的GenBank线粒体基因组集合上,该方法都能稳定地给出合理的频率估算。这表明其核心逻辑——利用TLHG和稀有SNV——在不同的人群样本构成下是有效的。关于“似然比分析”部分,研究人员将MitoFREQ方法应用于评估法医mtDNA证据的强度。结果显示,该方法能够产生介于100至100,000范围内的似然比(LR)。这一范围的似然比为法医专家解释证据提供了有意义的统计量度,能够显著增强对mtDNA匹配结果的证据评估,尤其是在面对罕见谱型时。

论文的讨论部分强调,MitoFREQ方法提供了一种简单、直接的方式来评估线粒体基因组的证据强度,它规避了对完整线粒体基因组进行数据库搜索的复杂性和数据局限性。该方法特别适用于法医实践中常见的降解样本和部分谱型,因为其仅依赖于少数关键信息。通过生成定量的频率估算值和似然比,该方法为法医mtDNA证据的统计解释提供了一个清晰的框架,有助于标准化评估过程。结论部分明确指出,研究人员成功开发并验证了MitoFREQ方法,该方法能够有效利用大规模生物信息学数据库的SNV频率信息,为法医线粒体DNA分析提供一种稳健、保守且易于实施的频率估算工具,其开源实现已可供社区使用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号