
-
生物通官微
陪你抓住生命科技
跳动的脉搏
2NPLGBM:一种基因组模型,它结合了经典方法和机器学习方法在基因组预测方面的优势
《Plant Methods》:2NPLGBM: a genomic model that merges the strengths of classical and machine learning methods in genomic prediction
【字体: 大 中 小 】 时间:2026年05月30日 来源:Plant Methods 4.4
编辑推荐:
摘要背景基因组预测(GP)是现代植物育种的核心组成部分,它能够基于基因组标记数据早期筛选出优良的基因型。传统的GP模型,如基因组最佳线性无偏预测(GBLUP),属于数据建模范畴,通常假设遗传效应是加性的,需要扩展才能模拟非加性效应,如显性和上位性。相比之下,来自算法建模领域的机器
基因组预测(GP)是现代植物育种的核心组成部分,它能够基于基因组标记数据早期筛选出优良的基因型。传统的GP模型,如基因组最佳线性无偏预测(GBLUP),属于数据建模范畴,通常假设遗传效应是加性的,需要扩展才能模拟非加性效应,如显性和上位性。相比之下,来自算法建模领域的机器学习(ML)模型可以灵活地模拟复杂的非加性遗传关系,但往往缺乏定量遗传理论的直接支撑和可解释性。为了解决这些差距,我们提出了2NPLGBM,这是一种将定量遗传学与机器学习相结合的混合基因组预测方法。该方法通过连接加性(Z)和显性(W)矩阵引入了双矩阵(2NP)基因型表示法,然后将其作为输入用于轻量级梯度提升机(LGBM),从而能够同时模拟加性、显性和高阶遗传相互作用(AA、AD、DD)。
使用六年的杂交玉米试验数据,对2NPLGBM模型进行了评估,这些数据涵盖了四个农艺性状(籽粒产量、植株高度、抽丝期和开花期),并采用了五种交叉验证方案:留一法(LOYO)、滚动窗口法(RW)以及基于测试者的方案(Tester CV0和Tester CV00)。与GBLUP相比,2NPLGBM在时间验证下的平均预测准确性提高了5%,在基于测试者的方案下提高了15%以上,尤其是在开花性状(抽丝期和开花期)方面。其性能与LGBM相当,两种机器学习模型在大多数性状上均优于GBLUP。在Tester CV0下,2NPLGBM在开花性状上的相对优势最为明显,表明其更好地捕捉了与相互作用相关的遗传信号;而LGBM在植株高度和籽粒产量方面的表现最佳。在五折交叉验证(Five-Fold CV)和 Tester CV00下,GBLUP在某些性状上仍具有竞争力,但两种机器学习模型的提升幅度都有所下降,其中LGBM略微优于2NPLGBM。此外,2NPLGBM总体上提高了选择效率,尤其是在大多数情况下优于GBLUP和LGBM,表明其在捕捉对杂交品种排名有重要意义的复杂遗传信号方面表现更佳,尤其是在开花性状上;而LGBM在植株高度和籽粒产量方面的选择效率最高。使用Shapley Additive Explanations(SHAP)进行特征解释后发现,非加性相互作用对高度可遗传性状的预测准确性贡献显著。研究还揭示了性状特定的遗传结构:加性效应在开花性状中占主导地位,而显性效应对植株高度和产量贡献更大。经典方差成分分析也支持了这些发现,表明产量受显性效应的影响较大(17.3%),植株高度受显性效应的影响为8.2%。
2NPLGBM模型将定量遗传学与机器学习相结合,架起了经典统计(数据模型)和算法建模之间的桥梁。通过同时模拟加性和非加性效应,它提高了杂交品种的预测准确性、可解释性和选择效率。未来的工作应探索多性状和多环境的扩展、环境协变量的整合以及多组学数据的纳入,以进一步增强预测能力和可解释性。
基因组预测(GP)是现代植物育种的核心组成部分,它能够基于基因组标记数据早期筛选出优良的基因型。传统的GP模型,如基因组最佳线性无偏预测(GBLUP),属于数据建模范畴,通常假设遗传效应是加性的,需要扩展才能模拟非加性效应,如显性和上位性。相比之下,来自算法建模领域的机器学习(ML)模型可以灵活地模拟复杂的非加性遗传关系,但往往缺乏定量遗传理论的直接支撑和可解释性。为了解决这些差距,我们提出了2NPLGBM,这是一种将定量遗传学与机器学习相结合的混合基因组预测方法。该方法通过连接加性(Z)和显性(W)矩阵引入了双矩阵(2NP)基因型表示法,然后将其作为输入用于轻量级梯度提升机(LGBM),从而能够同时模拟加性、显性和高阶遗传相互作用(AA、AD、DD)。
使用六年的杂交玉米试验数据,对2NPLGBM模型进行了评估,这些数据涵盖了四个农艺性状(籽粒产量、植株高度、抽丝期和开花期),并采用了五种交叉验证方案:留一法(LOYO)、滚动窗口法(RW)以及基于测试者的方案(Tester CV0和Tester CV00)。与GBLUP相比,2NPLGBM在时间验证下的平均预测准确性提高了5%,在基于测试者的方案下提高了15%以上,尤其是在开花性状(抽丝期和开花期)方面。其性能与LGBM相当,两种机器学习模型在大多数性状上均优于GBLUP。在Tester CV0下,2NPLGBM在开花性状上的相对优势最为明显,表明其更好地捕捉了与相互作用相关的遗传信号;而LGBM在植株高度和籽粒产量方面的表现最佳。在五折交叉验证(Five-Fold CV)和 Tester CV00下,GBLUP在某些性状上仍具有竞争力,但两种机器学习模型的提升幅度都有所下降,其中LGBM略微优于2NPLGBM。此外,2NPLGBM总体上提高了选择效率,尤其是在大多数情况下优于GBLUP和LGBM,表明其在捕捉对杂交品种排名有重要意义的复杂遗传信号方面表现更佳,尤其是在开花性状上;而LGBM在植株高度和籽粒产量方面的选择效率最高。使用Shapley Additive Explanations(SHAP)进行特征解释后发现,非加性相互作用对高度可遗传性状的预测准确性贡献显著。研究还揭示了性状特定的遗传结构:加性效应在开花性状中占主导地位,而显性效应对植株高度和产量贡献更大。经典方差成分分析也支持了这些发现,表明产量受显性效应的影响较大(17.3%),植株高度受显性效应的影响为8.2%。
2NPLGBM模型将定量遗传学与机器学习相结合,架起了经典统计(数据模型)和算法建模之间的桥梁。通过同时模拟加性和非加性效应,它提高了杂交品种的预测准确性、可解释性和选择效率。未来的工作应探索多性状和多环境的扩展、环境协变量的整合以及多组学数据的纳入,以进一步增强预测能力和可解释性。
生物通微信公众号