《The Plant Genome》:Randomization across breeding cohorts improves the accuracy of conventional and genomic selection
编辑推荐:
育种项目通常将不同阶段的育种材料群组(cohorts)在独立的试验中进行评估;然而,测试区域间的环境差异可能与群组间的遗传差异相混淆,从而降低育种值估计的准确性。本研究利用伊利诺伊大学冬小麦育种系的标记数据,通过计算机模拟(in silico simulati
育种项目通常将不同阶段的育种材料群组(cohorts)在独立的试验中进行评估;然而,测试区域间的环境差异可能与群组间的遗传差异相混淆,从而降低育种值估计的准确性。本研究利用伊利诺伊大学冬小麦育种系的标记数据,通过计算机模拟(in silico simulation)检验了限制随机化(restricted randomization, RR)与完全随机化(complete randomization, CR)对常规最佳线性无偏预测(best linear unbiased prediction, BLUP)、基因组BLUP(genomic BLUP, GBLUP)及基因组稀疏测试(genomic-enabled sparse testing)准确性的影响。研究人员评估了窄遗传力(narrow-sense heritabilities, h2)为0.2–0.8、测试区域间遗传相关(genetic correlations, rg)为0.2至1.0以及三种重复水平下的选择准确性。差异中的差异(difference-in-differences, DiD)分析通过比较设计性能随条件从最优基线恶化时的表现确立了因果推断。完全随机化使BLUP准确性提高了11.7%,在低重复和低区域遗传相关条件下达到15.7%。基因组数据在很大程度上消除了这种设计效应,GBLUP未显示出显著的DiD交互效应。然而,基因组稀疏测试显示出显著的DiD效应,选择准确性提高了1.5%,在挑战性条件下优势增至5.5%。虽然遗传力对选择准确性的主效应最强,但区域间遗传相关性与随机化方案的交互作用最大,随着rg降低,设计性能显著分化。拥有基因组数据且表型数据平衡的项目可使用任一随机化方案,但在其他情况下,完全随机化可带来益处。
论文解读:跨育种群组随机化策略对选择准确性的影响
研究背景与意义
在植物育种项目中,产量试验是获得遗传增益的基石,但其资源消耗巨大。传统上,育种材料按群组(cohorts,即处于相同选择阶段的一批基因型)在不同的试验地点或年份进行评估,这种做法被称为限制随机化(Restricted Randomization, RR)。然而,由于不同群组间存在遗传差异,而测试环境(区域)间存在非遗传差异,两者容易发生混淆(confounding),尤其是在存在强烈的基因型与环境互作(Genotype-by-Environment Interaction, G × E)时,这会显著降低育种值估计的准确性。尽管已有研究探讨了统计设计效率,但关于限制随机化如何影响基因组选择(Genomic Selection, GS)准确性的研究尚显不足。为此,研究人员开展了此项研究,旨在通过模拟不同场景,验证从群组内随机化转向跨群组完全随机化(Complete Randomization, CR)是否能提高常规选择和GS的准确性。该研究成果发表于《The Plant Genome》,对于优化育种试验设计、提高选择效率具有重要的理论和实践指导意义。
关键技术方法
研究人员利用伊利诺伊大学冬小麦育种系的真实标记数据,构建了包含四个不同阶段(S1-S4)育种群组的群体结构。研究通过计算机模拟生成表型和育种值,模拟了不同窄遗传力(h2 = 0.2–0.8)、区域间遗传相关(rg= 0.2–1.0)以及三种重复水平的试验场景。研究设置了六种不同的设计配置,分别对应RR和CR两种随机化方案。在数据分析方面,研究人员采用了常规最佳线性无偏预测(BLUP)、基因组BLUP(GBLUP)以及基因组稀疏测试模型。为了确立因果推断,研究引入了差异中的差异(DiD)分析法,比较了在不同因子(遗传力、重复水平、rg)从最优状态恶化时,两种随机化方案的响应差异。
研究结果
3.1 育种系间群体结构轻微
通过对4106个小麦系的主成分分析(PCA)发现,前两个主成分仅解释了总变异的5.8%和5%,表明群体结构较弱。尽管如此,初步(S1、S2)和进阶(S3、S4)育种系之间仍存在一定程度的分离,这证实了不同群组间存在遗传差异,若分开试验则可能导致遗传效应与试验效应的混淆。
3.2 完全随机化提升常规选择准确性
在常规选择中,CR的表现优于RR,且这种优势依赖于rg以及重复水平。方差分析(ANOVA)显示所有主效应和交互效应均显著。其中,rg与随机化方案的交互效应最强。DiD分析表明,在最优条件下(高遗传力、高重复、rg=1),CR与RR表现相当;但随着rg降低(即G × E增强),CR的优势逐渐显现,当rg=0.2时,CR相比RR的准确率提升了18.6%。这表明在没有基因组关系信息的情况下,将不同群组随机化在一起进行测试能有效减少环境混淆。
3.3 完全测试下基因组选择准确性不受随机化方案影响
当所有群组在所有五个环境中进行评估,并利用GBLUP结合基因组关系矩阵(Genomic Relationship Matrix, GRM)时,RR造成的遗传与非遗传效应混淆被有效缓解。结果显示,CR和RR在所有测试的h2和rg水平下保持了几乎相同的GS准确性(差异<0.5%)。ANOVA和DiD分析均未检测到显著的交互效应,说明GRM提供了空间上分离的群组间的连接性,使得在平衡的多环境测试中,育种项目无论采用CR还是RR都不会损害选择准确性。
3.4 稀疏测试下完全随机化提升基因组选择准确性
与完全测试形成鲜明对比的是,在稀疏测试(sparse testing)场景下,即S1和S2群组仅在五个环境中的一个进行测试时,设计性能出现了分化。CR的GS准确性始终高于RR,平均高出1.5%;在最具挑战性的低h2和低rg条件下,CR的优势扩大到5.5%。DiD分析证实,随着rg降低,CR与RR的差异响应显著。这说明当表型连接在环境间减弱时,rg重新成为决定随机化方案是否影响GS准确性的关键因素,此时CR更具优势。
结论与讨论
本研究通过系统的模拟实验,深入探讨了随机化策略对育种选择准确性的影响。研究发现,在缺乏基因组信息的常规选择中,完全随机化(CR)通过打破群组界限,有效解决了遗传差异与环境差异的混淆问题,特别是在存在强G × E(低rg)和低重复条件下,CR表现出显著优势。对于采用基因组选择(GS)的育种项目,若进行平衡的多环境测试(complete testing),基因组关系矩阵(GRM)能够充分捕捉个体间的遗传协方差,从而消除试验设计带来的偏差,此时RR与CR在准确性上无显著差异,育种家可根据实际操作便利性进行选择。然而,在实施基因组稀疏测试时,由于表型数据在环境间的连通性降低,CR再次展现出其优越性,能够显著提升对未测试环境下基因型的预测准确性。综上所述,该研究为育种项目优化试验设计和资源配置提供了重要的理论依据,建议在可行的情况下,尤其是资源有限或实施稀疏测试时,应优先考虑采用跨群组完全随机化策略。