《ACS Omega》:Differentiation of Lupinus and Mimosa by Machine Learning Employing Spectroscopic Data: A Comparative Study
编辑推荐:
本研究为克服高级分析技术(如NMR、LC-MS)在植物分类学中成本高、不易普及的局限,提出将易获取的紫外-可见(UV-vis)和傅里叶变换红外(FTIR)光谱技术与机器学习结合。研究人员针对巴西南部采集的羽扇豆(Lupinus)和含羞草(Mimosa)属植物,通过线性判别分析(LDA)耦合连续投影算法(SPA)和遗传算法(GA)进行变量选择,成功构建了预测模型。该模型实现了100%的灵敏度、特异性和准确度,精准区分了两个属,并分离出与特定次生代谢物(如喹诺里西啶生物碱和类黄酮)相关的光谱标记。这项研究为植物分类和化学多样性研究提供了一种强大、可及的初步替代方案。
在植物王国庞大的豆科(Fabaceae)家族中,蕴藏着丰富的生物活性化合物,许多成员具有重要的生态和经济价值。其中,羽扇豆(Lupinus)和含羞草(Mimosa)是两个颇具代表性的属,它们虽然同属一科,但在化学组成上各有特色。羽扇豆以其富含的喹诺里西啶(quinolizidine)生物碱而闻名,这些化合物展现出镇痛、抗心律失常等多种药理活性;而含羞草属植物则富含多种类黄酮(flavonoids),在抗菌、抗炎乃至促进伤口愈合等方面显示出潜力。准确区分这些植物,对于开发利用其药用价值、确保药材质量以及理解植物化学多样性都至关重要。
然而,传统的植物分类严重依赖形态学特征,不仅耗时耗力,且易受主观因素和经验影响。虽然核磁共振(NMR)、液相色谱-质谱联用(LC-MS)等高级分析技术能够提供精确的化学“指纹”,但这些方法通常需要昂贵的设备、专业的维护和操作人员,对于资源有限的实验室或进行大规模初步筛查而言,可行性不高。那么,是否存在一种既相对简单、经济,又能可靠地区分不同植物类群的方法呢?
发表在《ACS Omega》上的一项研究为我们提供了一个富有前景的答案。研究人员将目光投向了两种更为易得的光谱技术——紫外-可见(UV-vis)光谱和傅里叶变换红外(FTIR)光谱,并为其注入了“智能”。他们提出,尽管羽扇豆和含羞草都含有类黄酮和生物碱等次生代谢物,但其具体结构和组成上的差异,会在UV-vis和FTIR光谱上留下独特且可区分的“印记”。UV-vis光谱对共轭π体系高度敏感,擅长捕捉类黄酮等酚类化合物的变化;而FTIR光谱则能提供分子官能团(如羰基、芳香环)全面的振动“指纹”,这对识别生物碱和酚类骨架至关重要。关键的一步在于,他们引入了机器学习算法来处理这些高维、共线性的光谱数据,旨在从中自动挖掘出最能区分两个属的关键光谱特征,从而构建出强大的预测模型。
为了验证这一设想,研究团队从巴西的南里奥格兰德州(Rio Grande do Sul)采集了羽扇豆(15份)和含羞草(18份)属的植物样本。他们采用甲醇超声提取法制备冻干提取物,随后分别进行UV-vis光谱(扫描范围240-400 nm)和FTIR光谱(扫描范围1800-600 cm-1)分析。获得的光谱数据经过预处理(如Savitzky-Golay平滑、基线校正、归一化)后,进入了多元分析的核心环节。
研究人员采用了两类分析方法。首先是无监督方法,包括层次聚类分析(HCA)和主成分分析(PCA),用于探索数据内在的结构和样本间的自然分组趋势。更重要的是有监督的建模分析:为了解决经典线性判别分析(LDA)直接处理全光谱数据会导致过拟合和矩阵奇异的问题,研究创新性地将LDA与两种变量选择算法耦合——连续投影算法(SPA)和遗传算法(GA)。SPA旨在最小化变量间的共线性,而GA则模拟生物进化过程随机搜索最优变量子集。这两种方法的目的是不仅仅是分类样本,更是要分离出最具判别力的波长/波数,从而为属间差异提供化学意义上的解释。样本被分为训练集和测试集,并使用灵敏度(SEN)、特异性(SPE)和准确度(ACC)等指标来评估模型的性能。
研究结果
3.1. 多元分析
- •
3.1.1. 无监督方法:对平均光谱的初步观察(Figure 1)已能看出两个属光谱的异同。HCA的树状图(Figure 2)和PCA得分图(Figure 3, Figure 4)均清晰地显示出两个独立的组,分别对应羽扇豆和含羞草。在UV-vis的PCA中,第一主成分(PC1)解释了86.75%的变异,FTIR的PC1解释了48.28%的变异,且两个属的样本在PC1上呈现明显的分离。对PCA载荷的分析表明,在UV-vis光谱中,~259-269 nm和~340-350 nm区域对羽扇豆分类贡献较大,而~240 nm区域对含羞草贡献较大;在FTIR光谱中,~1580-1560 cm-1区域与羽扇豆相关,~1215-1200 cm-1区域与含羞草相关。这初步证实了两个属化学组成的光谱差异。
–1)。图中展示了羽扇豆(LU)和含羞草(MI)属样本的平均光谱曲线及标准差,直观显示了两属光谱特征的异同。">
–1)。(A) Scores and (B) loadings。傅里叶变换红外光谱的主成分分析同样显示了两属样本的分离,并标示了相关的特征波数区域。">
- •
3.1.2. 有监督方法
- •
3.1.2.1. 线性判别分析(LDA):连续投影算法(SPA)和遗传算法(GA):SPA-LDA和GA-LDA模型均取得了卓越的分类性能。对于UV-vis数据,最佳模型(SPA选取1个变量,GA选取4个变量)在训练集和测试集上均实现了100%的灵敏度、特异性和准确度(Figure 5)。判别函数图清晰展示了两个属的完全分离。Fisher权重图分析显示,对羽扇豆分类贡献大的变量包括~256 nm(SPA)以及257 nm和356 nm(GA);对含羞草贡献大的变量包括284 nm和261 nm(GA)。
对于FTIR数据,最佳模型(SPA选取6个变量,GA选取9个变量)同样在训练集和测试集上达到了100%的全部分类指标(Figure 6)。关键变量包括:与羽扇豆相关的1658 cm-1(C=O伸缩,SPA)以及1476, 1105, 828, 791, 660 cm-1(GA);与含羞草相关的1561, 1185, 1103 cm-1(SPA)以及1535, 1107, 781, 675 cm-1(GA)。
研究进一步将这些数学上筛选出的关键光谱变量与已知的化学成分相关联(Table 2)。例如,UV-vis光谱中~259 nm的信号被推定为羽扇豆中异黄酮(如金雀异黄素)的特征吸收;~284 nm和~356 nm的信号则与含羞草中类黄酮(如槲皮素、山柰酚衍生物)的B环和A环吸收相关。FTIR光谱中1658 cm-1处的信号可能对应于羽扇豆中喹诺里西啶生物碱的羰基(C=O)伸缩振动,而1103-1107 cm-1区域的信号则可能与含羞草中类黄酮苷的C-O伸缩振动有关。这为模型的判别能力提供了合理的化学依据。
结论与意义
本研究成功表明,将易获取的UV-vis和FTIR光谱技术与LDA耦合SPA或GA变量选择算法相结合,能够高效、准确地区分来自巴西南里奥格兰德州的羽扇豆和含羞草属植物。尽管这两个属在次生代谢物大类上存在相似性,但机器学习模型能够捕捉到反映其具体化学结构差异的细微光谱特征,并从中提取出具有化学解释性的关键光谱标记。
该方法成功克服了传统LDA处理高维光谱数据时的障碍,所建立的模型表现出100%的分类精度,其判别能力根植于两属植物不同的化学成分(如羽扇豆特异的喹诺里西啶生物碱和含羞草丰富的多样化类黄酮)。这项工作凸显了机器学习辅助的光谱学作为植物分类学强大辅助工具的潜力。它提供了一种相对于NMR、色谱-质谱联用等高端技术而言更经济、更易普及的稳健替代方案,可用于物种的初步区分和化学多样性评估,从而补充传统的形态学分析。当然,当前模型的适用范围受限于特定地理区域的样本,未来需要纳入更广泛地区和更大样本量的研究来扩展其应用域,并探索将其用于属内不同物种的鉴定。