《Nature Communications》:Integrating common and rare variants improves polygenic risk prediction across diverse populations
编辑推荐:
本研究针对多基因风险评分(PRS)主要依赖常见变异、忽视罕见变异贡献的问题,开发了整合常见与罕见变异的RICE框架。该研究利用UK Biobank和All of Us队列数据,证实RICE显著提升了脂质和身高等复杂性状的预测精度,尤其在非洲人群中R2提升显著,为跨祖先遗传风险预测提供了新方案。
多基因风险评分(Polygenic Risk Score, PRS)已成为评估个体罹患复杂疾病或特定性状遗传风险的核心工具。然而,当前绝大多数PRS模型主要依赖常见遗传变异(common variants),而忽略了罕见变异(rare variants)的贡献,这被认为是导致“遗传力缺失”(missing heritability)的重要原因之一。此外,现有模型在跨祖先(diverse ancestries)群体中的预测性能往往大幅下降,限制了其在全球范围临床应用中的普适性。因此,开发能够整合常见与罕见变异、并适用于不同遗传背景人群的新型PRS方法,是当前遗传学领域亟待突破的关键问题。
为了回答这一问题,研究人员开发了RICE(集成常见与罕见变异的PRS框架),并在《Nature Communications》上发表了相关研究。该研究利用大规模生物样本库数据,证实了罕见变异对于提升脂质性状和身高预测精度的重要价值,特别是在非欧洲人群中展现出了显著的改善效果,为跨祖先精准医学提供了重要的方法学支持。
关键技术方法
研究利用UK Biobank和All of Us两大生物样本库的测序数据,涉及361,939名不同祖先的个体及约7.4亿个遗传变异。RICE框架的核心技术路径包括:针对常见变异,采用集成学习(ensemble learning)融合多种PRS方法;针对罕见变异,则结合基因水平检验(gene-level testing)、功能注释(functional annotations)及惩罚回归(penalized regression)进行建模,最终整合两部分信号形成综合风险评分。
研究结果
RICE框架构建与验证
研究人员首先构建了RICE框架,其核心创新在于分别处理常见变异和罕见变异。对于罕见变异,研究采用了基于基因的聚合检验方法,并结合功能信息(如LOFTEE注释)来优先选择可能具有功能影响的变异。在模拟数据和真实数据中的测试表明,该框架能够有效捕捉罕见变异贡献,且在多群体中保持稳健的性能。
多性状预测性能评估
研究团队对11种复杂性状进行了系统评估。结果显示,对于具有明显罕见变异遗传结构的性状(如血脂水平和身高),RICE的预测精度显著优于仅基于常见变异的传统方法。在UK Biobank的欧洲人群中,RICE对脂质性状的预测R2最高提升了约11.2%。
跨祖先预测性能提升
一个关键的发现是,在非洲祖先(African ancestry)人群中,引入罕见变异带来了更为显著的预测性能提升。对于脂质性状,预测R2的提升幅度高达约60.7%,这凸显了罕见变异在弥补非欧洲人群PRS性能不佳问题上的巨大潜力,有助于减少精准医疗中的健康不平等。
罕见变异信号超出已知基因
进一步分析表明,RICE所捕获的预测信号并不仅仅来源于已知的高外显率基因(high-penetrance genes)。对于脂质性状,即使排除已知的罕见变异基因,模型仍能捕获到显著的多基因风险信号,这验证了罕见变异在多基因背景下的广泛分布和累积效应。
结论与意义
本研究证实,整合常见与罕见变异能显著改善跨祖先群体的多基因风险预测。RICE框架的成功开发为解决PRS在非欧洲人群中的性能衰减问题提供了有效路径,强调了在遗传风险评估中纳入罕见变异的重要性。该研究为下一代PRS工具的构建树立了新范式,推动遗传风险预测向更公平、更精准的方向发展。