《The Plant Genome》:Missing comparability: When genomic selection faces field variability. A case study in soybeans
编辑推荐:
在训练基因组选择(GS)模型之前,对表型信息进行预处理是一个关键但常被忽视的因素。为从田间变异中分离遗传信号,已有多种方法被提出。然而,在多数情况下,估计得到的遗传信号仍然携带田间变异的印记。此外,由于育种值未知,统计学指标往往无法对哪一种模型最能实现信号分离
在训练基因组选择(GS)模型之前,对表型信息进行预处理是一个关键但常被忽视的因素。为从田间变异中分离遗传信号,已有多种方法被提出。然而,在多数情况下,估计得到的遗传信号仍然携带田间变异的印记。此外,由于育种值未知,统计学指标往往无法对哪一种模型最能实现信号分离给出明确结论。本研究评估了不同空间模型在分离遗传变异与田间变异组分方面的效果,以及这些差异在实施GS模型时所造成的影响。研究人员分析了真实大豆(Glycine max L. Merr.)数据以及受控条件下的模拟研究数据。研究中实施了3种标准模型,以刻画不同田间变异组分(M1:区组;M2:区组 + 行 + 列;M3:区组 + 行 + 列 + 行 × 列)。真实数据所得结果表明,校正田间变异会降低已分离遗传信号的预测能力。然而,在模拟数据中发现,田间变异校正提高了育种值的预测能力。研究结论认为,使用已分离的遗传信号训练GS模型能够提升育种值的可预测性,而当前依赖预测值与观测值相关性的基准评估方法,可能因表型与育种值之间缺乏可比性而产生误导。
该论文发表于《The Plant Genome》,聚焦于基因组选择(genomic selection,GS)建模中一个长期存在但常被低估的方法学问题:用于训练模型的表型数据是否真正代表了基因型的遗传价值,而不是混杂了田间空间异质性后的观测表现。作物育种面对产量提升、环境波动加剧和育种周期长等多重挑战,促使研究者 increasingly 依赖分子标记辅助的预测框架,以尽早识别优良材料。GS的核心优势在于利用全基因组单核苷酸多态性(single-nucleotide polymorphism,SNP)信息预测未测材料的基因组估计育种值(genomic-estimated breeding value,GEBV),从而缩短选择周期、降低田间鉴定成本。然而,GS模型的预测效果高度依赖训练集表型质量,而田间试验中的土壤肥力梯度、微地形、湿度分布、管理差异以及局部空间依赖,都会污染表型,使观测值偏离真实遗传信号。由此带来的关键问题在于:若用未充分校正的表型训练GS模型,模型学习到的并不只是遗传效应,也可能吸收环境噪声及空间偏倚;但另一方面,若仅以预测值与原始表型的相关性作为评价标准,则越充分去除田间干扰的模型,反而可能在表面上显示出更低的“预测能力”。因此,本研究的根本动机是检验不同空间模型分离遗传信号与田间变异的能力,并重新审视现有GS评估指标的解释边界。
研究人员结合真实大豆数据与受控模拟数据开展分析。在真实数据部分,研究对象来自大豆巢式关联作图群体(soybean nested association mapping,SoyNAM),包含约5600个重组自交系(recombinant inbred lines,RILs),基因分型基于Illumina SoyNAM BeadChip,经质控后保留4077个高质量SNP。表型数据来自2013年美国Indiana州West Lafayette田间试验,采用改良增广设计,材料布置于4个区组、20行、80列网格中,每个基因型仅观测1次。模拟部分则从基因型中随机选取2000份材料,随机指定50个SNP作为主效数量性状位点,并构建真实遗传值(true genetic value,TGV);随后叠加区组效应、由地统计学随机场生成的田间变异(field variation,FV)以及测量误差,构建10张具有不同空间变异格局的表型图。统计分析分两阶段进行:第一阶段分别拟合3个贝叶斯线性混合模型,M1包含基因型与区组效应,M2加入行、列效应,M3进一步加入行×列互作;第二阶段将原始表型或第一阶段提取的遗传效应作为训练响应变量,利用基因组最佳线性无偏预测(genomic best linear unbiased predictor,GBLUP)开展五折交叉验证,并用相关系数与重合指数(coincidence index,CI)评价模型表现。总体方法学核心在于比较“与原始表型更相似”与“与真实遗传值更接近”这两类评价标准之间的差异。
从研究结果看,论文首先在真实数据中展示了不同空间模型对表型方差分解的显著影响。
3.1 Real data
在真实大豆产量数据中,M1、M2与M3都可将表型分解为空间组分、遗传组分与残差组分,但模型复杂度越高,对空间趋势的吸收越充分。结果显示,M1中line效应解释33.6%的变异,残差占59.7%左右;当M2加入行、列后,line效应降至20.8%,行与列分别解释6.5%和4.9%的变异,说明原先被归入遗传项的一部分方差实际来自田间空间结构;M3进一步引入行×列项后,该互作解释13.9%的变异,使残差方差降至49.6%,为3个模型中最低。这表明更复杂的空间模型更能吸收田间异质性,并减少未解释误差。
3.1.1 Variance components
该部分的核心结论是,随着空间项增加,模型对表型变异来源的划分发生系统性改变。M3虽然不是与原始观测值最接近的模型,但在降低残差和分离空间干扰方面最有效。换言之,更高的“拟合观测表型能力”未必意味着更好地恢复了遗传信号;相反,简单模型可能因为保留了田间变异而高估了遗传组分。
3.1.2 Cross-validation
交叉验证结果进一步揭示了评价标准的局限。原始表型与调整后遗传效应之间的相关性,随模型复杂度增加由0.950下降到0.900,说明空间校正越强,提取出的遗传信号与原始观测值越不一致。若以调整值与GBLUP预测值的相关性衡量,使用未调整表型训练时相关性为0.524,而M1、M2、M3分别为0.506、0.511和0.511;若用原始表型与预测值的相关性衡量,则M2和M3更低。这意味着在真实数据中,如果评价基准仍是原始表型,那么去除了更多空间噪声的模型反而会显得“预测较差”。论文据此指出,仅用预测值与观测值的相关性评判GS模型,可能混淆“能否重现观测表型”与“能否逼近育种值”这两个不同目标。
3.2 Simulated data
由于真实数据中无法直接观测真实育种值,研究人员借助模拟数据验证上述解释。在10组模拟表型图中,TGV和区组效应保持不变,仅FV发生变化,因此可以明确评估各模型恢复真实遗传信号的能力。结果表明,未调整表型虽然保留了大量田间变异印记,但空间校正后的遗传估计更接近TGV。
3.2.1 Variance components
在模拟数据中,M1的残差方差最高,为57.7%;M2加入行、列后降至56.2%,且列效应吸收了相当一部分原先归于line项的变异;M3进一步将残差降至47.1%,行×列项解释14.7%的变异。该结果说明,若田间空间结构确实存在,复杂空间模型能更充分识别并剥离这些非遗传来源的波动,从而避免遗传项对环境结构的“误吸收”。
3.2.2 Cross-validation
模拟数据最关键的发现,是不同评价参照系下结论完全相反。若将TGV与第一阶段估计值比较,未调整表型的相关性为0.675,M1升至0.712,M2与M3进一步升至0.783;说明空间校正越充分,恢复真实遗传值越准确。若考察调整值与预测值的相关性,结果同样从0.615逐步升至0.734左右。更重要的是,若直接比较TGV与GBLUP预测值的相关性,使用原始表型训练时已达到0.913,M1为0.923,M2和M3则达到0.940。这证明,尽管空间校正会降低预测值与原始表型的相似性,却能提高预测值与真实育种值的一致性。因此,以原始观测值作为唯一基准,会低估GS模型对遗传价值的真实预测能力。
3.2.3 Coincidence index
重合指数分析进一步强化了这一结论。若仅依据FV随机选择,命中真正优异基因型的数量接近随机期望;若用未调整表型直接筛选,前1%材料中仅约4/20与真实最优材料重合,而在前20%中为217/400。相比之下,若基于GBLUP预测值进行筛选,即使训练依赖未调整表型,重合数也提高至9/20和309.9/400。使用空间校正后的训练值时,筛选表现进一步提升,其中M2和M3最优:前1%约有11.2/20命中,前20%约有324.9/400命中,准确率约81%。这说明,在选择决策层面,基于基因组预测的排序优于直接根据田间表型排序,而这种优势又因空间校正而被进一步放大。
论文讨论部分围绕“可比性缺失”这一核心概念展开。研究指出,真实田间数据中复杂空间模型之所以未在传统相关性指标上显示优势,并不意味着其不利于GS,而是因为该指标将预测值与混杂环境噪声的表型进行比较,二者在目标属性上并不相同。原始表型反映的是遗传效应、空间变异与随机误差的混合体,而育种值关注的是可遗传的加性遗传成分,因此两者本身就不具备完全可比性。模拟研究由于已知TGV,清楚显示出空间校正可以改善遗传信号恢复、提高GEBV准确度并改善优异基因型识别。作者同时指出,虽然更复杂模型通常更能去除空间噪声,但并非任何情况下都必须追求最高复杂度;在本研究中,M2与M3在模拟数据中的表现十分接近,提示适度而稳健的空间建模可能已足够有效。整体而言,论文的重要意义在于重新界定GS评价框架:对育种实践来说,更值得关注的是预测值是否更接近真实育种值,以及是否提高了优异材料识别效率,而不是其与原始表型是否保持最高相关。
研究结论部分可译为:田间试验中存在的空间变异会引入依赖结构,从而掩盖被评估基因型的真实遗传信号。因此,应用空间模型能够校正这类未受控制的异质性,促进对加性遗传价值的更准确估计,并提高GS模型的预测能力。基于真实大豆数据的分析发现,包含行、列及其互作项的复杂空间模型,在分离环境变异与遗传组分方面更为有效。尽管这些模型并不总是对观测表型值提供最佳拟合,但其残差方差下降更明显,提示其对潜在遗传信号具有更好的表征能力。不过,模型拟合效果仍将在很大程度上取决于数据质量及田间空间分布特征。模拟研究进一步表明,空间模型能够更准确地恢复TGV,尤其是在包含行×列因素时更为明显。这些模型还提高了被选为优良基因型与真实优良基因型之间的一致性,证实其应用能够提升遗传改良项目的效率。因此,可以得出结论:在表型数据分析中系统纳入空间模型,不仅能够改善遗传估计质量,还能提高基因组模型的预测准确性,尤其是在FV显著、可能扭曲选择决策的情形下更是如此。