《Pathogens》:Genomic Analysis of Resistance to Exserohilum turcicum in Nigerien and Senegalese Sorghum Using GWAS and Machine Learning
Louis K. Prom,
Ezekiel J. S. Ahn,
Adama R. Tukuli,
Jacob R. Botkin,
Sunchung Park,
Lindsey C. Perkin and
Clint W. Magill
编辑推荐:
为揭示高粱在尼日尔面临的玉米大斑病(Exserohilum turcicum)抗性遗传机制,研究人员采用全基因组关联分析(GWAS)和CatBoost机器学习算法,对102份高粱种质进行抗性表型评价与基因型分析。研究发现S39、N23、S3等种质具有较低发病率与严重度,并通过GWAS和ML分别鉴定出与抗性相关的候选SNP位点及邻近基因(如Sobic.007G111800、Sobic.005G115200),其功能涉及植物防御与应激响应通路。该研究为高粱抗病育种提供了关键靶点与多组学分析策略,对提升非洲地区高粱产量及抗病性改良具有重要意义。
在尼日尔,高粱是仅次于珍珠粟的重要粮食、饲料和经济作物,但其产量常受到多种因素制约,其中由Exserohilum turcicum引起的叶枯病尤为突出。该病害在尼日尔和塞内加尔的高粱种植区广泛流行,田间发病率可达89%至100%,严重时导致高达70%的产量损失。然而,目前对高粱抗叶枯病的遗传基础了解有限,缺乏高效的抗性育种靶点。因此,深入解析抗性遗传机制、挖掘抗病基因资源,成为提升高粱产量和稳定性的关键。
为此,Louis K. Prom等人开展了一项整合田间表型评价、基因组学与机器学习分析的研究。他们在尼日尔的Bengou和Maradi两地种植了102份来自尼日尔和塞内加尔的高粱种质(包括对照品种SC748-5和BTx623),在高粱软质至硬质初期评估了叶枯病的发病率与严重度。同时,对120份种质进行基因分型,并针对其中具有完整表型数据的102份种质,利用全基因组关联分析(GWAS)和基于CatBoost的机器学习(ML)方法,鉴定与叶枯病抗性相关的单核苷酸多态性(SNP)标记及其邻近候选基因。
主要技术方法
研究采用田间试验评估叶枯病发病率(按“病株数/调查总株数×100”计算)和严重度(基于0–11分级标准)。基因分型通过Illumina NovaSeq 6000平台测序(平均覆盖度2.6×),利用GATK流程进行变异检测,并以高粱参考基因组Sorghum bicolor v3.1.1进行比对。GWAS使用GEMMA软件进行线性混合模型分析;机器学习采用CatBoost算法,以SNP为特征、发病率(LB-Incidence)和严重度(LB-Severity)为目标变量,通过10折交叉验证评估模型性能,并计算特征重要性以筛选关键SNP。候选基因功能通过Phytozome、AlphaFold蛋白质结构数据库和STRING蛋白互作网络进行注释。
研究结果
3.1. 尼日尔高粱种质叶枯病发病率与严重度
在尼日尔两地评估显示,平均发病率为81.26 ± 1.37%,平均严重度为24.5 ± 0.64。种质S39、N23和N38的平均发病率低于50%,而S3、S43、N23和N38表现出最低的严重度。地点比较表明,Bengou的发病率(72.94 ± 1.91%)和严重度(16.04 ± 0.76)均显著低于Maradi(发病率89.17 ± 1.86%,严重度32.54 ± 0.76)。相关性分析显示,品种水平的平均发病率与严重度呈正相关(r = 0.61, p < 0.0001)。
3.2. 叶枯病发病率的GWAS分析
GWAS鉴定出两个通过Bonferroni校正的SNP位点:S07_42352720和S05_47989804。其邻近候选基因包括Sobic.007G111800(编码含DUF707结构域蛋白)、Sobic.005G115200(含RING finger结构域)和Sobic.007G116000(锌指蛋白)。蛋白结构预测()显示这些基因的蛋白模型置信度较高;蛋白互作网络分析()提示其与激酶、糖基转移酶等防御相关蛋白互作。
3.3. 基于机器学习筛选叶枯病抗性预测SNP标记
CatBoost模型对LB-Incidence和LB-Severity的预测均方根误差(RMSE)分别为0.74和0.94。特征重要性排名显示,LB-Incidence中最重要的SNP为S08_10325034(邻近基因Sobic.008G073700,编码丝氨酸羧肽酶),其重要性得分约100%;LB-Severity中最重要的SNP为S02_47024283(重要性得分约100%)。累积重要性达80%的SNP集中,LB-Incidence和LB-Severity的top 20标记无重叠,但部分标记(如S02_50596409、S02_54879183)在两种性状中均显示中等重要性。候选基因功能涉及丝氨酸羧肽酶、黄酮醇糖基转移酶、富含亮氨酸重复(LRR)蛋白等,这些蛋白在植物防御、应激响应及病原识别中发挥关键作用。
结论与讨论
该研究通过田间表型评价、GWAS和机器学习相结合的策略,系统解析了尼日尔和塞内加尔高粱种质对叶枯病的抗性遗传基础。研究发现S39、N23、N38、S3、S43等种质具有较低发病率或严重度,是宝贵的抗病遗传资源。GWAS鉴定出2个与发病率显著相关的SNP位点,其邻近基因功能与植物防御、应激响应密切相关;而CatBoost机器学习进一步筛选出多组重要性较高的SNP标记,这些标记在传统GWAS中未达显著阈值,体现了机器学习在捕捉复杂、非线性遗传效应方面的优势。
值得注意的是,GWAS与CatBoost筛选出的top标记集合无重叠,发病率与严重度的top标记亦无重叠,提示叶枯病抗性可能由多基因控制,且不同性状的遗传架构存在差异。这支持了将GWAS与机器学习作为互补工具,以更全面揭示复杂数量性状遗传基础的策略。
在生物学意义上,鉴定到的候选基因如RING finger蛋白、锌指蛋白、LRR受体激酶、糖基转移酶等,均已知参与植物病原识别、防御信号转导和次生代谢调控,为阐明高粱对Exserohilum turcicum的抗性分子机制提供了关键线索。该研究成果不仅为高粱抗叶枯病分子育种提供了候选基因标记,也为整合多组学与人工智能方法解析作物复杂抗病性状提供了范例。然而,这些候选SNP和基因仍需在更大群体中进行验证,并通过功能实验确认其生物学作用。未来,结合基因编辑等技术开展功能验证,将加速这些靶点在育种中的应用。
本研究发表于《Pathogens》,展示了通过基因组学与机器学习相结合的策略,在资源有限地区作物抗病遗传改良中的可行性与潜力。