《PLOS Genetics》:Ultra-fast genetic colocalisation across millions of association signals
编辑推荐:
遗传共定位(colocalisation)是一种评估两个遗传关联信号是否可能共享因果变异的有力方法。然而,大型生物样本库和分子数量性状位点(molQTL)研究现已常规性地鉴定出跨越数千个表型的数百万关联信号,这使得对所有信号对进行共定位检测变得不可行。在此,研
遗传共定位(colocalisation)是一种评估两个遗传关联信号是否可能共享因果变异的有力方法。然而,大型生物样本库和分子数量性状位点(molQTL)研究现已常规性地鉴定出跨越数千个表型的数百万关联信号,这使得对所有信号对进行共定位检测变得不可行。在此,研究人员介绍了gpu-coloc,即coloc算法的GPU加速重新实现,该算法结合高效的数据存储与并行化,在保持近乎相同结果的同时实现了1000倍的速度提升。因此,gpu-coloc的运行时间现已接近共定位后验概率(CLPP)方法——一种仅使用精细映射可信集信息来检测共定位的竞争性方法。利用来自英国生物样本库(UK Biobank)、FinnGen和eQTL Catalogue的汇总统计,研究人员证明gpu-coloc和CLPP检测到高度一致的结果,尤其在将分析限制于高置信度精细映射信号时。研究人员引入共定位碰撞子标度来量化大规模共定位图中的虚假共定位,并用其选择能在灵敏度和特异性之间提供合理权衡的决策阈值。最后,研究人员展示了gpu-coloc如何还能应用于缺乏精细定位的研究中的边际GWAS汇总统计,在这种情况下它仍能为约80%的GWAS位点恢复molQTL共定位。研究人员的高效软件和全面分析为未来大规模共定位分析提供了实用指南。
全基因组关联研究(GWAS)已鉴定出数百万将遗传变异与数千种人类表型和疾病相关联的关联。然而,超过90%的这些变异位于非编码区,且往往具有细胞类型和上下文特异性效应,这使得识别其功能角色变得复杂。遗传共定位方法可通过识别与疾病或性状GWAS信号共享因果变异的分子性状和生物标志物来帮助解释GWAS。例如,与基因表达数量性状位点(QTLs)的共定位有助于优先确定多种疾病的效应基因和相关细胞类型。因此,大规模遗传共定位具有极大改善GWAS解释的潜力。
coloc是最广泛使用的共定位方法之一,仅需双方研究的边际关联汇总统计即可。然而,coloc假设每个位点至多存在一个因果变异,这一限制性假设可通过统计精细定位来克服,后者能区分同一位置上的多个条件独立信号。CLPP方法首次在eCAVIAR论文中提出,在可信集水平执行共定位——可信集是精细映射信号的最小变异集合,预期以给定概率包含条件独立的因果变异。但eCAVIAR的穷举搜索精细定位算法对于大多数实际数据集而言太慢。随着高度可扩展的FINEMAP和累加单效应(SuSiE)算法的发展,大规模精细定位变得可行。重要的是,coloc和CLPP方法均已适配支持SuSiE输出,使得可以直接在共定位中使用信号特异性的贝叶斯因子(BFs)和可信集。
尽管GWAS目录中现在有很大比例的GWAS汇总统计遵循标准格式,但精细定位结果的共享则更为零散。例如,Million Veterans Program和Open Targets Platform仅发布了可信集变异的后验包含概率(PIPs),可供CLPP方法使用;而FinnGen、eQTL Catalogue等研究则发布了所有测试变异的对数贝叶斯因子(LBFs),这是coloc所需。此外,虽然CLPP在变异水平定义,但coloc的后验概率(PP.H4)在基因座水平定义,这使得两种方法的结果比较变得困难。因此,需要严格的实证基准测试来理解CLPP和coloc方法在识别共定位信号方面的相对性能,以及存储信号特异性LBFs所需的约1000倍额外空间是否由coloc潜在增加的灵敏度所证明。
共定位基准测试的关键挑战在于计算效率。虽然CLPP可即时计算并此前已用于生物库规模共定位,但coloc当前的R实现无法很好地扩展到数百万次共定位测试。在单因果变异假设下,coloc首先将边际汇总统计转换为近似贝叶斯因子(ABFs);存在多个因果变异时,则用SuSiE精细定位获得信号特异性条件独立LBF来替代此步骤。下一步,两种实现(coloc.abf和coloc.susie)使用相同算法(coloc.bf_bf)计算两个感兴趣信号之间的coloc后验概率。虽然ABFs和LBFs可预先计算一次并缓存以供所有未来共定位测试使用,但coloc.bf_bf的后验概率计算需要为所有性状对重复进行,在进行数百万次测试时计算量 prohibitively expensive。
研究人员开发了gpu-coloc,即coloc算法的重新实现,结合预计算贝叶斯因子(ABFs或LBFs)的缓存与共定位后验概率的超快速并行计算,相比原始R实现达到约1000倍加速,同时产生近乎相同的结果。随后,研究人员将gpu-coloc应用于来自eQTL Catalogue、FinnGen和Rahu et al., 2025的精细映射信号。这一快速重新实现使研究人员能够系统比较CLPP和gpu-coloc的共定位结果,以实证确定两者产生可比结果的阈值。研究发现,当将分析限制于高置信度精细映射信号时,CLPP和gpu-coloc识别的共定位中有>90%是共享的,证明两种方法之间具有良好的一致性。最后,研究人员展示了gpu-coloc也可在没有精细定位的情况下使用,在这种情况下它能够识别约80% GWAS位点的共定位molQTL(与可获得完整精细定位结果时相比)。
gpu-coloc方法的实现方面,该方法是coloc.bf_bf算法在Python中的高效重新实现,具有GPU支持。与在每个GWAS位点执行精细定位不同,gpu-coloc使用来自eQTL Catalogue、FinnGen和Rahu et al., 2025等公开来源的SuSiE精细映射LBF。这些LBF向量首先转换为parquet格式矩阵以便快速检索。或者,gpu-coloc也能利用缺乏可靠精细定位信息的研究中预先计算的ABFs。与coloc类似,gpu-coloc然后估算两个信号在区域内共享因果变异的后验概率(PP.H4)。原始R实现中的coloc.bf_bf一次测试一对信号的共定位,而gpu-coloc可同时测试数千对信号。通过按基因组位置对信号进行分块,矩阵行为信号、列为变异、条目为LBF或ABF,实现大规模矩阵计算。
研究人员通过将gpu-coloc与官方R版coloc比较进行了验证。使用eQTL Catalogue GTEx数据集和Rahu et al., 2025的56个代谢性状UK Biobank精细映射GWAS信号,在保守先验概率(p
1=p
2=1×10
-4,p
12=1×10
-6)下,两方法在高置信度共定位(PP.H4≥0.8)时产生几乎相同的PP.H4值(标准差0.0012,最大绝对误差0.0087,平均绝对误差=0.0003)。在时间比较方面,随着并行测试数量增加,gpu-coloc效率提高,而coloc.bf_bf保持平稳甚至增加。仅计共定位步骤,gpu-coloc CUDA GPU后端相比R实现快795倍,CPU后端快190倍;总加速(含IO和预处理)分别为1658倍和516倍。在M2 Max MacBook Pro上,Metal GPU后端比R快369倍,CPU后端 surprisingly 快416倍,总加速达1170倍。
关于缺失值对共定位的影响,研究人员通过两次执行GTEx eQTL与Rahu et al., 202 siru5代谢性状信号的共定位来量化:一次所有代谢性状包含插入缺失多态性(indels),一次从每隔一个代谢性状中移除indels(使其被当作缺失变异并遮蔽)。结果显示,在indels全包含时检测到的2,923个共定位对中,3.9%在indels移除后不再通过trim_posterior步骤,0.6%降至PP.H4<0.8以下。
在gpu-coloc与CLPP的后验概率比较方面,研究人员为eQTL Catalogue和FinnGen数据集中约2亿个molQTL和GWAS信号对计算了CLPP和gpu-coloc PP.H4。发现尽管PP.H4和CLPP值之间的关系非线性,但存在连续下界,可识别CLPP值高于某阈值时PP.H4恒超过相应阈值。例如,使用coloc.bf_bf默认先验概率p
1=p
2=1×10
-4和p
12=5×10
-6,筛选CLPP≥0.01的信号对,所有这些信号对的PP.H4≥0.8。降低p
12至1×10
-6使对应PP.H4≥0.8的CLPP阈值升至0.04;p
12=1×10
-7时约为0.3。
关于选择gpu-coloc和CLPP共定位阈值,研究人员指出固定PP.H4≥0.8时,近期分析推荐设p
12=5×10
-6为良好起点,此时对应CLPP≥0.01。但这些阈值在数百万次测试中的适用性 unclear。SuSuE在统计功效有限时可能将两个独立因果变异驱动的关联合并为单信号,导致共定位碰撞子——两个数据集A中基因X的精细映射信号彼此不共定位(因条件独立),但均与数据集B中同基因的未精细映射信号共定位。为识别共定位碰撞子,研究人员使用gpu-coloc和CLPP在eQTL Catalogue 636,057个精细映射eQTL信号中进行全对全共定位,构建共定位图(节点为信号,边为显著共定位),提取连通分量并统计含碰撞子的比例。在可比阈值下,gpu-coloc的碰撞子率总是高于CLPP,且随阈值收紧而降低:p
12=5×10
-6、PP.H4≥0.8时gpu-coloc为7.31%,CLPP≥0.01为3.03%;p
12=1×10
-6及对应CLPP≥0.04时分别降至2.52%和1.12%。
关于共定位碰撞子的成因,eQTL Catalogue全对全共定位共检测10,334,443个事件,84.4%为gpu-coloc与CLPP共享,10.1%仅gpu-coloc检测到,5.4%仅CLPP检测到。值得注意的是,gpu-coloc额外检测的大多数(68%)涉及至少一个缺乏可信集的信号。SuSiE未报告可信集的主要原因是可信集内变异无法通过purity filter(默认要求任意两变异间连锁不平衡r
2>0.5)。排除涉及无可信集SuSiE信号的718,378条边后,gpu-coloc碰撞子率从2.52%降至1.18%,而排除等量随机边仅降至2.51%。聚焦gpu-coloc与CLPP共享共定位时,其碰撞子率(1.118%)几乎与CLPP单独(1.124%)相同。排除无可信集信号后,gpu-coloc与CLPP共享共定位比例从84%升至91%。
关于无精细定位运行gpu-coloc,研究人员 replay 较边际GWAS汇总统计转换的ABFs与精细定位LBFs的结果。发现精细定位使共定位GWAS位点数增加约18%,条件独立共定位信号数增加>50%。但对大多数GWAS位点,无需精细定位即可识别与molQTL的共定位。例如,FinnGen r12中细菌性肺炎GWAS在CRP位点的命中(先导变异rs1800947)与eQTL Catalogue中GTEx v8肝脏sQTL(QTD000270)共定位,无论使用精细映射LBF(PP.H4=0.998)还是无精细定位的ABF(PP.H4=0.988)均可检测。相反,在Rahu et al., 2025的BCAT2位点总支链氨基酸(Total_BCAA)中,五个条件独立信号互相干扰,边际汇总统计的ABF未显示任何共定位,但精细映射LBF检测到22个共定位(含GEUVADIS淋巴母细胞系sQTL和FUSION脂肪组织eQTL),展示精细定位如何揭示同一靶基因通过不同机制扰动的多个条件独立信号。
关于大规模共定位分析的建议,研究人员提出:(1)若所有性状均有精细映射可信集PIP,仅使用CLPP可能是最有效的方法,灵敏度损失极小;(2)当部分或全部性状未精细定位,或需包含未通过SuSiE purity filter的低置信信号时,推荐使用gpu-coloc作为计算高效的替代方案;(3)尽管方法名为gpu-coloc,即使仅CPU也可获得具竞争力的加速,考虑GPU硬件成本后CPU后端可能对大多数应用最佳;(4)设p
12=1×10
-6、PP.H4≥0.8对于大多数应用是在限制共定位碰撞子和保持灵敏度之间的合理权衡,对应CLPP≥0.04。
研究讨论部分,研究人员介绍了coloc算法的新实现gpu-coloc,实现生物库规模共定位。该方法相比coloc.bf_bf达到高达1000倍计算加速,同时保持可比精度。通过eQTL Catalogue release 7、FinnGen release 12和Rahu et al., 2025的精细映射信号进行比较,确定了gpu-coloc与CLPP产生可比结果的阈值,并引入共定位碰撞子概念量化大规模共定位图中的虚假共定位。虽然gpu-coloc相比CLPP灵敏度高约20%,但碰撞子率高约2.5倍,这一差异由未通过SuSiE purity filter的低置信精细映射信号驱动。排除这些低置信信号后,两方法产生高度一致(~90%共享)结果。最后证明gpu-coloc在精细定位不可行时仍可使用,预期为约80% GWAS位点找到共定位。gpu-coloc与tensorQTL(不支持SuSiE LBF输入,且限于逐对测试)、HyPrColoc(受单因果变异假设限制)、Flanders(仅存储可信集内LBF并插补其他)等方法相关。其局限性包括:GPU并行化假设同一基因座有多个关联信号,故测试数百或数千性状时最佳;对单一集合假设所有性状测试了所有变异且无缺失值,这在eQTL Catalogue和统一处理的大型生物库中可能满足,但整合GWAS Catalog等异质来源时可能有问题。
研究人员强烈建议尽可能公开共享精细定位结果,以区分同一位点多条件独立信号的不同分子机制。虽然共享精细映射LBF有优势,但约95%高置信gpu-coloc共定位已可用仅需可信集变异PIP的CLPP方法识别。因此,期望目前无法公开全基因组汇总统计的研究(如因再识别风险)至少能发布精细映射可信集变异的PIP。