《Theoretical and Applied Genetics》:Bridging tradition and innovation: a review of computer simulations in plant breeding
编辑推荐:
当前植物育种者可用的工具与方法范围广泛,具有提高选择增益的潜力。然而,这也导致在高效杂交与选择策略设计中面临大量复杂决策。计算机模拟对于优化育种项目至关重要,因为此类项目通常具有多年周期和高投入特征;同时,计算机模拟还能够在不进行田间试验的情况下比较流程效率,
当前植物育种者可用的工具与方法范围广泛,具有提高选择增益的潜力。然而,这也导致在高效杂交与选择策略设计中面临大量复杂决策。计算机模拟对于优化育种项目至关重要,因为此类项目通常具有多年周期和高投入特征;同时,计算机模拟还能够在不进行田间试验的情况下比较流程效率,从而节省时间与田间资源。此外,计算机模拟也是评估新方法与新流程统计学性质的关键手段,并有助于开发作物生长模型以及解析基因型×环境互作(G*E)。本综述对前两类应用领域进行了特别详细的讨论。此外,综述还评估了所有公开可获得模拟工具的能力、基本假设与局限性,并强调了其在不同应用场景中的相关性。
Introduction
文章首先回顾了植物育种的发展脉络,指出植物育种自古以来即在塑造农业生产格局和保障全球粮食安全方面发挥核心作用。早期育种主要依赖群体选择、控制杂交和轮回选择等传统方法,这些方法为作物驯化与品种改良奠定了基础。随后,分子遗传学、生物技术与计算科学的发展显著改变了该领域的研究范式,使育种者能够更直接地测定并调控遗传组成。文中强调,标记辅助选择(MAS)、基因组选择(GS)以及基因组编辑等现代技术与高通量表型鉴定技术相结合,使得高产、抗逆并适应快速变化环境需求的品种培育显著提速,也使育种流程设计更加复杂。
Relevance of computer simulations for plant breeding
在此部分,文章指出,现代植物育种中可用工具和方法的增加虽然提升了潜在遗传增益,但同时也带来了杂交设计、选择路径和资源配置等方面的大量复杂决策。定量遗传学为这些决策提供了理论框架,但经典定量遗传模型通常依赖多基因控制与加性效应占主导等简化假设。作者认为,这些假设虽然有助于模型求解,但并不能完整反映复杂数量性状的真实遗传结构。计算机模拟的重要价值正在于,可以在不依赖大规模田间实验的前提下,检验放宽这些假设后对育种策略效率的影响,并分析遗传结构与育种程序表现之间的关系。对于涉及亲本选择、系谱关系、连锁与重组等复杂因素的多年度育种项目,解析推导往往困难,而模拟研究则可灵活纳入这些因素,因此成为优化育种项目和提升决策效率的重要工具。文章还指出,随着该领域研究数量持续增加,有必要系统梳理现有模拟软件的功能、假设基础及适用范围。
Areas of application of computer simulations
作者将植物育种中计算机模拟的主要应用归纳为三大方向,即育种方法学问题、统计新方法与新程序性质评估,以及作物生长模型与基因型×环境互作(G*E)的利用。该分类体现出计算机模拟不仅服务于育种流程本身的设计优化,也广泛用于方法学验证和复杂环境响应预测。文章说明,由于相关文献数量庞大,综述采用代表性研究进行概括,以展示各应用方向中的核心思想与研究重点。
Breeding methodological considerations
本节指出,育种项目本质上包含多个连续步骤,而每一步又存在多种备选方案,因此兼具高度灵活性与高度决策复杂性。由于经费、周期和操作条件限制,对整套育种程序进行大规模实证比较通常并不可行,模拟工具因而成为设计与检验替代育种策略的关键手段。为便于归纳,作者将相关研究分为两类:一类是针对主效基因或数量性状位点(QTL)导入的育种项目,另一类是针对受大量微效基因或QTL控制的数量性状改良项目。
Optimization of introgression programs
在主效基因已知的情形下,文章聚焦于利用回交法将目标基因导入受体基因型的导入育种项目,尤其是标记辅助回交(MABC)。文中指出,该方法通常同时包括前景选择与背景选择:前者用于跟踪目标基因,后者用于评估轮回亲本基因组恢复程度。综述总结的模拟研究表明,针对单个显性或隐性基因、两个基因以及多个基因的导入,研究重点主要集中于标记密度、背景选择位点配置、群体规模及恢复轮回亲本基因组所需世代数等问题。总体上,背景选择在前景选择之后实施往往更为高效。一些模拟结果显示,适当扩大从BC1到BC3世代的群体规模,可在维持轮回亲本基因组恢复水平的同时显著减少标记检测量;对于双基因导入,早代阶段进行基因富集可明显节约资源。
文章进一步讨论了QTL回交导入。由于许多重要农艺性状属于数量性状,单纯针对主效基因的导入并不足以覆盖大多数育种场景。模拟研究表明,若目标QTL定位较为明确,则在置信区间(CI)中心及两侧配置标记有助于在多代回交后确认目标基因存在;而若QTL定位精度较低,则可能需要整体导入较大染色体片段,但这也会带来连锁拖带不利基因的风险。对于多QTL导入,文章比较了同步导入设计与聚合设计两种方案,指出后者在个体需求量上可能更具资源效率。此外,随着单核苷酸多态性(SNP)高通量标记系统的发展,相关模拟进一步表明,结合目标基因两侧重组体筛选、单标记检测与全基因组背景选择的三阶段策略,其效率优于单纯依赖全基因组高通量背景选择。
Optimization of breeding programs targeting quantitative traits
对于大多数农艺性状,文中指出尚无明确主效基因可供直接导入,因此传统或改良后的数量性状育种流程仍然具有核心地位。作者强调,育种项目优化本质上是一个在既定成本、时间和操作约束下,对多个相互依赖决策进行联合配置的问题,而且这种优化高度依赖作物类型、遗传参数、成本结构与技术条件。文章列举的模拟研究涵盖双单倍体(DH)技术在玉米中的高效利用、提高重组率对短期选择响应的影响、标记辅助育种与基因组选择策略下资源分配优化,以及高通量表型数据在育种中的潜在整合价值。总体而言,这些研究表明,计算机模拟可用于比较表型选择、标记辅助选择与基因组选择在短期和长期遗传增益方面的差异,并帮助确定在固定预算条件下最优的资源投放方式、选择阶段安排与表型鉴定强度。对于二倍体和四倍体作物、系谱育种和无性系育种等不同体系,模拟结果普遍支持基因组选择在合理设计下能够显著提升选择效率,但实施方式必须依据具体育种背景进行调整。
Evaluation of statistical properties of new methods and procedures
文章指出,在植物与动物遗传育种研究中,大量新统计方法和分析流程的提出都需要依靠计算机模拟进行性能评估。相关研究通常通过模拟数据将新方法与既有方法进行比较,以检验统计功效、准确性、稳健性和适用条件。文中举例说明,模拟已被用于评估高阶上位性互作检测能力、多SNP建模策略在全基因组关联分析(GWAS)中的表现,以及固定与随机模型循环概率统一方法(FarmCPU)相较传统方法的统计功效优势。除此之外,计算机模拟还是验证基因组预测模型不可或缺的手段,既可用于不同参数模型的基准比较,也可用于评估机器学习方法在基因组预测中的表现差异。作者同时指出,在SNP、InDel以及结构变异检测工具的比较研究中,模拟同样发挥了重要作用,尤其适用于短读长数据条件下不同算法性能的系统评估。
Crop growth models and G*E interactions
在作物生长模型与基因型×环境互作(G*E)应用方面,文章认为,这类模型能够在不同环境与管理条件下预测植株表现,从而减少对大规模田间试验的依赖,并为理想株型设计提供理论支持。综述重点讨论了基因组预测与作物生长模型融合的两类框架。第一类是基因组预测辅助作物生长模型,即利用基因组预测估计新基因型的作物生长模型参数;相关研究表明,该路径在处理由非加性基因效应决定的性状时,可在已观测环境和未观测环境中获得较高预测精度。第二类是作物生长模型辅助基因组预测,即借助作物生长模型改进新基因型表型预测。文章强调,二者虽然均涉及表型预测,但在育种中的功能并不相同:前者更适合在真实或模拟环境中设计理想表型,后者则更适合育种值预测与候选材料选择,从而直接服务于遗传增益提升。
Basic steps in designing simulation studies in a plant breeding context
作者随后概述了植物育种背景下设计模拟研究的基本步骤。首先需要明确研究目标,即待比较的因变量以及需要改变的参数;其次依据模拟工具的内置假设与功能选择合适的软件平台,并结合自身试验数据、文献数据或理论推断设定参数取值;随后执行模拟、分析输出结果,并从合理性角度进行评估,必要时与试验结果对照,最终形成结论。文章以马铃薯无性系育种中整合基因组选择的研究为例,展示了如何以固定总成本为约束,对不同选择方案的预期遗传增益进行比较,并据此判断基因组选择最适宜的导入阶段以及资源重新配置的必要性。这一案例说明,高质量模拟研究高度依赖现实参数支撑与结果合理性检验。
Tools for computer simulations in plant breeding
在工具综述部分,文章系统梳理了当前公开可用的植物育种模拟软件,并按照主要应用方向进行组织。适用于育种方法学研究及部分统计方法评估的工具包括QU-GENE及其扩展模块、QMSim、Breeding Scheme Language(BSL)、ADAM-plant、ADAM-multi、MoBPS、MoBPSweb、AlphaSimR、Blib、ChromaX、SNPcan breeder和PyBrOpS等。作者对这些工具的适用物种范围、是否支持多倍体、可建模的遗传效应类型、是否考虑G*E、重组模拟方式、可执行的交配类型及选择准则进行了概括。整体来看,不同工具在灵活性、遗传模型复杂度、输入数据要求与计算效率之间存在明显权衡。例如,有些工具适于完整模拟复杂育种流程,有些则更适合构建用于方法评估的遗传数据;部分平台对多倍体、细胞质效应、上位性或高性能并行计算支持更强,而另一些则在易用性或特定育种场景上更具优势。
Tools suitable for the evaluation of statistical properties of new methods
对于更偏向统计方法评估的工具,文章介绍了QuantiNemo、QuantiNemo 2、MaCS、PedigreeSim、PopVar、XSim、XSimV2、SBVB、pSBVB、GeneEvolve、SeqBreed和FieldSimR等。此类工具的共同特点是,部分软件专门用于模拟创始群体序列、重组过程或多倍体遗传行为,部分软件可进一步生成表型并支持有限的选择模拟,还有一些软件则专门针对多环境田间试验中的地块误差、空间趋势及多性状相关结构建模。作者特别指出,这些工具并不一定用于重建完整育种程序,但在构建基准数据集、检验统计方法稳定性以及解析复杂误差结构方面具有重要价值。
Challenges and limitations
文章最后对计算机模拟在植物育种中的挑战与局限进行了审慎讨论。复杂性状表型受多层次生物学过程调控,涉及复杂基因网络、上位性以及G*E,因此模拟往往不得不采用简化假设以控制计算复杂度,这可能降低预测准确性,尤其是在关键参数缺乏高质量估计的情况下更为明显。作者据此强调,实验数据对于设定模拟参数至关重要。与此同时,由于育种周期漫长,模拟结果很难通过真实育种结果进行即时验证,因此建议采用替代模拟框架、敏感性分析或交叉验证等方式增强结果可信度。此外,大规模、高真实性的育种群体与环境互作模拟需要较高计算能力,这使研究者在模型复杂度与计算成本之间必须进行权衡。
Summary and outlook
在总结与展望部分,作者认为植物育种项目本身就是高度复杂且决策相互依赖的系统,而新技术的持续涌现将进一步提升这种复杂性。在这一背景下,对整个育种项目开展全面实验评估几乎不可行,因此计算机模拟未来将在育种方案优化中发挥更加关键的作用。综述显示,当前已有多种性质不同的模拟工具可供选择,理论上能够覆盖大多数常见应用场景。整体而言,本文强调计算机模拟正在成为连接传统育种理念与现代技术创新的重要桥梁,也是实现高效、精准和资源优化育种决策的核心支撑。