《BEHAVIOR GENETICS》:Tracing the Right Path: Determination of Large Pedigree Segmentation and Relatedness
编辑推荐:
大型人群数据库常包含可通过现代生物计量方法分析的复杂家庭结构,适用于跨代及扩展系谱(extended pedigree)分析。迄今为止,由于分析过程中出现的诸多复杂性,这些资源的潜在价值大部分尚未被挖掘。两个困难且关键的问题是:(1)在较大人群数据库中找到相互
大型人群数据库常包含可通过现代生物计量方法分析的复杂家庭结构,适用于跨代及扩展系谱(extended pedigree)分析。迄今为止,由于分析过程中出现的诸多复杂性,这些资源的潜在价值大部分尚未被挖掘。两个困难且关键的问题是:(1)在较大人群数据库中找到相互独立的扩展家族(extended family);(2)确定扩展家族内所有个体对的亲缘系数(coefficient of relatedness, 也称numerator relationship coefficient)。若解决这两个问题,研究人员可更充分地利用扩展家族数据进行生物计量建模(biometric modeling)。本文提供针对上述两个问题及若干适用于任意规模与复杂度系谱问题的快速、计算高效算法。算法仅依赖构成多数大型人群数据库基础的母?子(mother-child)和父?子(father-child)关系。这些方法对任何需将标准系谱数据文件分割为独立扩展家族单元、计算扩展家族内亲缘系数(relatedness coefficient)、开展跨代及其他生物计量建模的研究人员具有重要价值。
《Tracing the Right Path: Determination of Large Pedigree Segmentation and Relatedness》一文发表于《Behavior Genetics》,针对大型人群数据库(如国家登记库)中仅含个体ID、母亲ID、父亲ID的标准系谱数据,解决两大核心瓶颈——无法自动将数据库拆分为统计独立的扩展家族(extended family,即通过亲缘任意连接的人群子集),以及无法高效计算扩展家族内所有个体对的加性遗传亲缘系数(additive genetic relatedness coefficient / coefficient of relatedness, φ 或 Rij,指两个体间期望共享分离基因比例),并延伸解决母系线(matrilineal line)、父系线(patrilineal line)、世代排位(generation number)及亲缘度(degree of relatedness)的计算。现有方法多局限于小样本手工溯源、简化近似、仅依赖基因型IBD(Identical By Descent)片段(仅可靠至二级亲缘)或动物育种中较局限的实现,难以应对数万至数十万人、多代复杂系谱。研究人员提出仅需母子、父子二元亲子关系的图论—线性代数联合算法体系,并在R包BGmisc中实现,使大型系谱预处理与亲缘矩阵(numerator relationship matrix, A-matrix / additive genetic relatedness matrix, R-matrix)构建可规模化应用,为后续跨代生物计量模型(如OpenMx多扩展家族结构方程模型、GCTA-GREML等)提供前提。
主要关键技术方法:研究人员以标准三列系谱数据(个体ID、mother ID、father ID)为输入,(1) 构建无向亲本—子代图,采用并查集(Union-Find / 弱连通分量 weakly connected components, WCC)算法做扩展家族分割;(2) 分别构建仅含母—子边或父—子边的有向图再做WCC以获取母系线与父系线;(3) 建立一阶邻接矩阵A(父母→子女为0.5),通过(I?A)?1=I+A+A2+…求总遗传效应矩阵,再乘缩放矩阵S( founders 为1,有双亲记录者为0.5)得加性遗传亲缘矩阵R(numerator relationship matrix);(4) 用BFS/DFS做最短路径求亲缘度(degree of relatedness)与世代编号(generation number);算法采用稀疏矩阵(sparse matrix)加速。示例数据来自模拟哈利·波特家族系谱(7人与30人扩展家族)验证。
研究结果如下:
Finding Independent Extended Families(独立扩展家族的识别)
研究人员将系谱转化为图(节点=个体,边=亲子关系),对该图求弱连通分量(weakly connected components / Union-Find),同一分量内任意两人通过亲缘链相连但不同分量间无连接,每个分量即为一个可独立分析的扩展家族(extended family)。演示中对示例7人家谱BFS遍历确认全图属同一扩展家族。
Finding Independent Maternal lines and Paternal lines(独立母系线与父系线的识别)
研究人员仅保留母—子边建图并对该图求弱连通分量得母系线(matrilineal line / maternal line);仅保留父—子边建图求弱连通分量得父系线(patrilineal line / paternal line)。示例中母系线分出多簇(含单例),与全亲缘扩展家族的一簇形成对照。
Determining Extended Family Relatedness Coefficients(扩展家族亲缘系数的确定)
研究人员依Wright路径追踪规则(path tracing rules),先分扩展家族降维,再构建个体邻接矩阵A,计算总遗传传递矩阵(I?A)?1,与自亲缩放矩阵S相乘得加性遗传亲缘矩阵R(numerator relationship matrix),对角元素反映近交(inbreeding)影响,非对角元素为两个体加性亲缘系数(如亲子/全同胞φ=0.5,半同胞φ=0.25,一级表亲φ=0.125)。单卵双生(monozygotic twins)视为同一遗传个体处理,异卵双生(dizygotic twins)按全同胞处理;养父母关系不影响本算法(要求mother ID/father ID为生物学亲本)。
Determining Relationship Degree and Generation Number(亲缘度与世代编号的确定)
研究人员从指定奠基者(founder)起BFS计数单向步数定世代编号(generation number);两个体间最短亲缘路径边数即为亲缘度(degree of relatedness),用以区分同系数不同关系(如parent–child与full sibling均为φ=0.5但世代差不同)。
Illustrative Example(示例演示)
研究人员对7人与30人扩展家族分别计算(I?A)?1、缩放矩阵S及最终R矩阵,热图显示核家庭块与母系聚类结构,证实算法可自动给出全量pairwise relatedness并匹配经典手工路径计算结果(如Harry与Dudley为一级表亲φ=0.125,Dominique与George为叔侄φ=0.25)。
讨论与结论翻译:尽管大型人群数据库并不罕见,其中的复杂系谱远未得到充分利用。本文概述了大型人群数据库的两类挑战——将数据库划分为可独立处理的片段,以及量化各独立片段内个体间的关系——并提供概念与算法解决方案(图论弱连通分量分割+Wright–McArdle & McDonald线性代数路径追踪规则求加性遗传亲缘矩阵),且在R语言BGmisc包中开源实现。除主问题外,相同图论框架可推广至母系/父系线划分、亲缘度与世代排位计算。全部方案仅依赖个体ID、母亲ID、父亲ID三项最小信息,通用性强,可容纳近交瓶颈与小奠基群体。需注意算法对ID录入错误、父系错配(误父权 ~1%–5%)敏感;极小型世界网络("small world")全连数据库可能无法有效分割但母/父系线仍可用。总之,本文提出的大型系谱分割与亲缘判定方法使研究者能以前所未有的效率从大规模人口登记或抽样系谱数据库中产出独立扩展家族与精确加性遗传亲缘矩阵,为跨代行为遗传学建模(方差组分估计、基因–环境交互、母系mtDNA效应等)奠定数据与算法基础。