野生家系 exploreR(wpeR):野外谱系在时间与空间中的流程化分析与可视化

《Molecular Ecology Resources》:Wild Pedigree exploreR (wpeR): Streamlined Analysis and Visualization of Wild Pedigrees in Time and Space

【字体: 时间:2026年06月24日 来源:Molecular Ecology Resources 5.9

编辑推荐:

  非侵入性遗传采样与长期遗传监测项目的发展,使许多野生动物种群能够积累大规模个体基因型数据集,而且这些数据通常伴随丰富的野外元数据(metadata),可将已完成基因分型的个体定位于时间与空间背景中。这类数据集可用于重建多代家系(multigenerationa

  
非侵入性遗传采样与长期遗传监测项目的发展,使许多野生动物种群能够积累大规模个体基因型数据集,而且这些数据通常伴随丰富的野外元数据(metadata),可将已完成基因分型的个体定位于时间与空间背景中。这类数据集可用于重建多代家系(multigenerational pedigrees),并有潜力为种群统计学(demography)、繁殖、扩散(dispersal)、社会结构以及遗传过程提供重要认识。然而,尽管家系构建工具持续改进,其解释仍然具有挑战性。将多代家系数据与野外元数据整合会带来显著复杂性,而能够促进此类数据集解释的专门工具仍较为匮乏。研究人员在此提出 wild pedigree exploreR(wpeR),这是一个旨在简化复杂家系探索、整理与解释的 R 软件包。该软件包使用户能够将重建的家系与遗传样本元数据相连接,从而既可评估推断亲缘关系的生物学合理性,也可在空间与时间语境下探索个体和种群的其他特征。wpeR 实现了一条线性工作流程,在该流程中导入家系数据,进行格式化,组织为家族,并与野外元数据整合。所得数据集可通过时间图进行可视化,用于追踪个体与家族随时间的变化;同时也可输出空间结果,将亲代—子代关系与个体移动模式表示为地理要素(geographic features),这些结果既可直接在 R 中绘制于地图之上,也可导出后利用常见地理信息系统(GIS)工具进一步分析。wpeR 使研究人员能够在生态学背景下探索谱系关系,弥合统计学重建家系与其生物学解释之间的差距。该软件包为分析此类复杂数据提供了可扩展且灵活的框架,为使用遗传监测数据集的研究人员与管理者提供了实用工具。
该文发表于《Molecular Ecology Resources》,聚焦于野生动物多代谱系数据的解释难题,提出并展示了 R 软件包 wild pedigree exploreR(wpeR)的设计思想、分析流程与应用价值。研究背景在于,非侵入性遗传采样(non-invasive genetic sampling)和长期遗传监测(genetic monitoring)的发展,使研究人员能够在许多野生动物种群中积累跨世代的个体基因型数据,并在统计方法进步的支持下重建复杂家系(pedigree)。这类数据为研究种群统计学(demography)、繁殖动态、扩散模式、近交(inbreeding)、杂交(hybridization)、社会系统及连通性提供了统一的数据基础。然而,家系重建完成并不意味着研究结束,反而是进入生物学解释阶段的起点。当前难点不在于缺少家系重建算法,而在于如何将重建结果与样本采集日期、地理位置、个体属性等野外元数据整合,并据此判断推断亲缘关系在生物学与时空层面是否合理。尤其对于来源于非侵入性样本的数据,标准重建方法的若干假设未必完全成立,因此需要专门工具对重建谱系的时间一致性、空间一致性及生态学意义进行系统审查。研究人员开展这项研究,正是为了填补“统计学家系重建”与“生物学解释”之间的工具空缺。

研究人员开发了 wpeR 这一面向复杂野生谱系数据的 R 软件包,其核心目标是简化多代家系的导入、整理、家族组织、元数据整合以及时空可视化。该软件包强调线性工作流程:首先导入重建家系;随后检查并规范遗传样本元数据格式;在个体层面生成检测时间跨度与死亡标记;然后将个体按家族(family)以及父系或母系半同胞组(half-sib group)组织起来,形成扩展家系表;最后把扩展家系属性与样本元数据联结,生成可用于时间图和空间图的标准化数据输出。研究表明,wpeR 不仅可作为家系合理性审查的辅助工具,也可作为解析种群时空动态、繁殖更替、后代扩散和家族结构的可视化平台。文章的重要意义在于,它为野生动物遗传学与生态学提供了首个专门针对野生多代谱系时空解释的工具框架,使复杂遗传监测数据更容易转化为具有生态学意义的结论,并可支持保护管理中的数据解释与质量控制。

作者开展研究所采用的关键技术方法主要包括以下几类。首先,构建以 R 为基础的线性分析流程,支持从 Colony 输出或自定义数据框导入家系数据。其次,利用 `check_sampledata()`、`anim_timespan()`、`org_fams()` 与 `plot_table()` 等函数,对遗传样本元数据进行格式审查、个体时间跨度识别、家族与半同胞组组织及家系—元数据联结。再次,基于 `ggplot2` 生成时间谱系图,并基于 `sf`(simple features,简单要素)对象实现空间表达与 GIS 导出。文中展示的样例数据来自斯洛文尼亚国家灰狼(Canis lupus)监测项目,包含 2019—2021 年间 65 个个体的 278 份遗传样本,以及由 Colony 重建的家系数据。

在结果部分,文章保留了清晰的模块化结构,并通过灰狼监测数据展示软件的实际效能。

“Overview of the Workflow”部分说明,wpeR 的多数功能按照顺序衔接,上一步函数输出直接作为下一步输入。研究人员由此建立了一个兼具连贯性与开放性的工作流:既保证分析过程标准化,又允许中间结果导出至其他 R 软件包或外部软件继续处理。这一设计结论表明,wpeR 不只是封闭式可视化工具,更是可嵌入既有分析体系的数据组织平台。

“Input Data”部分界定了软件运行所需的两类核心输入:重建家系与遗传样本元数据。研究人员指出,自定义家系至少应包含 `OffspringID`、`FatherID` 和 `MotherID` 三列,未知亲本以 `NA` 表示;样本元数据则至少需要样本编号、个体编号、性别、采样日期、经纬度、样本类型以及死亡样本逻辑标记。通过这一数据规范,研究得出一个关键结论:谱系时空解释的可靠性高度依赖元数据格式的完整与准确,而 `check_sampledata()` 与 `anim_timespan()` 为后续分析提供了必要前处理基础。

“Tabular Outputs”部分介绍了家系导入、家族组织与扩展谱系构建的核心过程。研究人员通过 `get_colony()` 或 `get_ped()` 导入家系后,使用 `org_fams()` 将个体划分为家族与半同胞组,并输出家族索引 `fams` 与扩展家系表 `ped`。由此可识别家族中的繁殖个体、后代首次检出时间、繁殖雄性或雌性的最晚检出时间,以及是否因亲本死亡而可视为停止繁殖。该部分表明,wpeR 在谱系内部嵌入了丰富的派生属性,使原始亲缘结构转化为适用于生态解释的分析单元。随后,`plot_table()` 将扩展家系与样本元数据连接,并提供 `plot_fams` 与 `plot_indivs` 两种过滤机制,以控制复杂谱系的展示范围。研究据此说明,软件可通过按家族或按个体抽取相关谱系,降低复杂网络造成的视觉拥挤。

“Temporal Pedigree Plot”部分显示,`ped_satplot()` 以时间为横轴、个体为纵轴,将每次样本检出表示为点,并用线连接同一个体的连续记录。研究人员说明,该图先按家族分组,再按半同胞组排列,家族内个体根据首次检出时间排序,因此能够直观呈现家族内部及家族之间的时间关系。样本点还可进一步标示繁殖个体、多配偶个体和死亡个体等特征。通过灰狼示例,研究人员展示了两个共享同一母本的家族:图中不仅可识别已死亡的繁殖雄体,还可观察到某繁殖雌体在前一配偶死亡后更换配偶并再次繁殖,因此被标记为多配偶个体;同时,部分子代在其他家族中成为繁殖者。该结果说明,时间图不仅能展示检出历史,还能够揭示配偶更替、后代成熟繁殖及家族延续等生物学过程。

“Spatial Data”部分说明,`ped_spatial()` 将 `plot_table()` 的输出转换为 14 个 `sf` 对象,涵盖母本、父本和子代的参考点(reference points)、移动点(movement points)、亲缘连线(maternity/paternity lines)、移动轨迹线(movement lines)以及活动范围多边形(convex hull polygon)等几何表达。研究人员指出,该函数可限定纳入空间分析的时间窗口,并可直接导出兼容 GIS 的文件格式。以灰狼数据为例,第一类空间输出展示亲代与子代参考点及其连线,用于识别不同家族在地理上的邻近性和重叠关系;第二类输出展示母本和父本的全部移动点及时间顺序连线;第三类输出将这一框架扩展到子代层面。由此可见,wpeR 能把谱系关系放置在地理景观中审视,帮助研究者理解亲代—子代关系的空间分布、个体活动范围以及潜在扩散过程。

在讨论部分,研究人员强调,wpeR 为复杂野生谱系数据的探索与解释提供了新的框架。作为 R 软件包,其上手相对直接,并可与 GIS 扩展结合,适用于从单家族、单世代到复杂多代数据的分析。文章指出,在标准桌面硬件上,对约 400 个个体和 2000 份样本的数据集,完整工作流约需 10 s,说明该工具具有可扩展性与实用性。与此同时,研究人员也明确其局限:软件性能高度依赖输入数据质量与完整性,必要元数据的缺失会阻碍函数执行;所有输出都受采样努力影响,而对图形结果的生物学解释仍带有研究者主观判断成分。因此,wpeR 应被视为家系准确性评估的补充工具,而非替代统计学评估方法。尽管如此,研究人员认为,该软件能够通过时空合理性审查提高对重建家系的信心,并通过高效可视化揭示仅靠表格数据不易发现的扩散、社会结构和繁殖模式等隐含特征。文章进一步指出,就研究人员所知,wpeR 是首个具备此类功能的工具;随着遗传监测在保护与管理相关物种中的常规化,多代数据将持续积累,wpeR 预期将在更多数据集与应用场景中发挥作用。

研究结论部分可概括为:wpeR 弥合了统计学家系重建与生物学解释之间的空白,通过把重建谱系与带有时间、空间信息的野外元数据整合,提供了一个可扩展、灵活且实用的分析框架。该软件能够帮助研究人员检验亲缘推断的生物学及时空合理性,并支持对种群动态、繁殖历史、扩散行为和空间结构开展更具生态学语境的解释。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号