基于衰减全反射傅里叶变换红外光谱联合化学计量学与卷积神经网络的薯蓣属物种快速准确分类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Applied Food Research》：Rapid and accurate classification of Dioscorea species using Attenuated Total Reflection-Fourier Transform Infrared (ATR-FTIR) spectroscopy integrated with chemometric analysis and Convolutional Neural Network (CNN)

【字体：大中小】 时间：2026年05月30日 来源：Applied Food Research 6.2

编辑推荐：

　　背景：由于其高市场需求和营养价值，薯蓣（Dioscorea oppositifolia）常被掺入其他薯蓣属（Dioscorea）物种，如Dioscorea hamiltonii、Dioscorea fordii和Dioscorea alata。由于形态相似，区

背景：由于其高市场需求和营养价值，薯蓣（Dioscorea oppositifolia）常被掺入其他薯蓣属（Dioscorea）物种，如Dioscorea hamiltonii、Dioscorea fordii和Dioscorea alata。由于形态相似，区分薯蓣属物种极具挑战性。因此，本研究采用衰减全反射-傅里叶变换红外（ATR-FTIR）光谱结合化学计量学分析和卷积神经网络（CNN）来鉴别薯蓣属物种。方法：共收集来自中国的107份薯蓣样本，经干燥、研磨和过筛处理。采集ATR-FTIR光谱，并通过ATR校正、平滑、基线校正、归一化和算术处理进行预处理。对光谱数据应用了化学计量学技术，包括主成分分析（PCA）、PCA分类（PCA-Class）和正交偏最小二乘判别分析（OPLS-DA）。结果与讨论：ATR-FTIR光谱显示出显著的吸收峰；然而，PCA无法清晰地区分薯蓣属物种。与PCA-Class相比，OPLS-DA在鉴别薯蓣属物种方面表现出更高的准确性（95.24%）、灵敏度（90.48%）和特异性（96.83%）。较低的估计均方根误差（RMSEE）、交叉验证均方根误差（RMSECV）和预测均方根误差（RMSEP）值（均低于0.20）以及0.86的马修斯相关系数（MCC）值表明OPLS-DA模型具有稳健性。CNN表现出令人满意的性能（91.75%的准确率，83.50%的灵敏度，94.50%的特异性，0.85的精确度，0.84的召回率和0.84的F1分数），这通过随机分组测试中的微小波动得以证明。尽管CNN的性能略低，但其可扩展性和自动化程度更高，使其成为一种有价值的鉴别方法，尤其适用于实时常规认证工作流程。结论：ATR-FTIR光谱结合OPLS-DA和CNN对于鉴别薯蓣属物种是可靠的。该方法为传统技术提供了一种快速、无损的替代方案。为进一步验证该联合方法，研究人员旨在未来将化学计量学和CNN模型应用于其他植物药的认证。

本研究针对薯蓣属（Dioscorea）物种鉴定中因形态相似性导致的掺假与鉴别难题，探索了一种结合光谱技术与人工智能的快速、无损分析新方法。传统上，中国植物药的鉴定依赖于物理特征、显微结构和粉末特性，但对于粉末形态的薯蓣属物种，这些方法面临挑战。因此，需要建立可靠的薯蓣属物种标准化证据，以避免市场掺假。

研究人员收集了产自中国福建（龙岩、南平、宁德、泉州、三明）及河南的107份薯蓣属块茎样本，包括15份薯蓣（D. oppositifolia, DO）、55份参薯（D. hamiltonii, DH）、14份山药（D. fordii, DF）和23份甜薯（D. alata, DA）。样本经干燥、研磨和过筛后，使用配备通用衰减全反射附件的傅里叶变换红外光谱仪进行ATR-FTIR光谱采集，波数范围为4000至400 cm^-1。研究人员对获取的光谱进行了ATR校正、平滑和基线校正等预处理。化学计量学分析使用SIMCA软件，构建了无监督的PCA模型以及有监督的PCA-Class和OPLS-DA模型。CNN模型采用简单的架构，包含两个一维卷积层、批归一化、最大池化层和丢弃层，并通过合成少数类过采样技术（SMOTE）处理数据不平衡问题。模型性能通过十折交叉验证和随机分组测试进行评估。

研究结果与讨论部分首先分析了ATR-FTIR光谱。四种薯蓣属物种的光谱轮廓显示出高度相似性，特征吸收峰的位置基本一致，表明其化学组成相似。尽管在峰高、峰面积和半峰宽（FWHM）上存在细微的定量差异（例如在1640 cm^-1和1541 cm^-1处），但由于严重的峰重叠，仅凭肉眼观察难以区分。

鉴于光谱相似性，化学计量学分析被用于进一步鉴别。无监督的主成分分析（PCA）模型虽然解释了较高的方差（前三个主成分解释了80.96%的总方差），但其得分图显示不同物种的样本存在重叠，无法实现完全分离。有监督的PCA-Class模型在分类性能上有所提升，但其准确性（79.76%）、灵敏度（58.69%）和特异性（87.70%）仍有改进空间。相比之下，正交偏最小二乘判别分析（OPLS-DA）模型展现出优越的性能。该模型由3个预测成分和6个正交成分构成，其得分图显示不同物种被清晰地分离。模型的R²X为0.98，R²Y为0.82，Q²Y为0.64，表明模型具有良好的解释能力和预测能力。置换检验（100次）的R²Y和Q²Y截距分别为0.18和-0.49，证实了模型的稳健性。估计均方根误差（RMSEE）、交叉验证均方根误差（RMSECV）和预测均方根误差（RMSEP）值均低于0.20，马修斯相关系数（MCC）为0.86，进一步证明了模型的准确性和鲁棒性。OPLS-DA模型的分类准确性达到95.24%，灵敏度为90.48%，特异性为96.83%，显著优于PCA-Class模型。

卷积神经网络（CNN）作为一种深度学习方法也被用于物种鉴别。通过SMOTE算法进行数据增强后，CNN模型在独立的测试集和多次随机分组测试中进行了评估。学习曲线显示训练损失与验证损失趋于一致，表明模型未出现过拟合。在10次随机分组测试中，CNN模型平均获得91.75%的准确率、83.50%的灵敏度和94.50%的特异性。其精确度、召回率和F1分数分别为0.85、0.84和0.84，且各项指标的变异系数（CV）均较低，表明模型性能稳定、可靠。混淆矩阵分析显示，D. hamiltonii的鉴别性能相对略低，这可能与其较高的光谱相似性有关。

研究对比了化学计量学方法与CNN的优缺点。化学计量学方法（如OPLS-DA）在可解释性方面更具优势，能够提供变量间关系的清晰见解，尤其适合处理中小型复杂度的数据集。CNN则适用于高维、复杂的大型数据集，其分层架构能在训练过程中自动提取特征，降低了对繁琐光谱预处理的依赖，并具有更好的可扩展性和自动化潜力，更易于集成到实时常规鉴定工作流中。尽管CNN的分类性能略低于OPLS-DA，但两种方法的结合（化学计量学与CNN）形成了一种互补框架，在可解释性与先进数据处理能力之间取得了平衡。此外，尽管光谱中缺乏明显的物种特异性波数标记，OPLS-DA和CNN仍能通过挖掘全谱范围内的多变量模式识别信息，成功提取具有区分意义的光谱特征。

研究的局限性包括：ATR-FTIR方法在约3800 cm^-1和2400 cm^-1处存在光谱噪声，这可能对分类性能产生一定影响，导致其结果略逊于此前使用传统透射FT-IR的研究。此外，由于野外采集的限制，研究中D. oppositifolia和D. fordii的样本数量较少，导致数据集类别不平衡。尽管通过数据增强技术缓解了这一问题，但增加真实样本数量仍是未来改进模型鲁棒性的重要方向。

结论部分总结道：本研究揭示了薯蓣（D. oppositifolia）、参薯（D. hamiltonii）、山药（D. fordii）和甜薯（D. alata）之间的光谱特征虽无显著差异，但其化学指纹信息（如峰形、位置和强度）可作为潜在的代谢物标记物，为薯蓣属物种的鉴别提供依据。化学计量学方法，特别是OPLS-DA，被证明是鉴别和分类薯蓣属物种的可靠途径。此外，CNN可作为薯蓣属物种鉴别的另一种有效方法。尽管CNN模型的性能略低，但其在可扩展性、适应更大数据集以及实时常规认证工作流中集成的潜力方面具有显著优势。将化学计量学方法与CNN相结合，推动了该领域的发展，将传统分析方法的严谨性与深度学习的灵活性相结合，为建立薯蓣属物种稳健、快速、无损的认证方法奠定了基础。未来，该框架可扩展至其他植物药，并旨在建立公开可访问的认证平台，以支持研究、工业应用和监管监督。

联系信箱：

粤ICP备09063491号

热点排行