FT-NIRS与化学计量学的结合实现了琅沧贾草-科(Lanxangia tsao-ko)采集点的可追溯性

《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》:The combination of FT-NIRS and chemometrics realizes the traceability of Lanxangia tsao-ko collection points

【字体: 时间:2026年04月11日 来源:Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy 4.3

编辑推荐:

  龙血竭(LT)地理溯源研究基于FT-NIRS,提取45个统计特征并融合多模态数据(1D-2D-GRU-CNN-Attentio模型),结合DT、KNN、NB等经典算法,实现92%以上识别准确率。ResNet模型(2DCOS/3DCOS)表现最优,达100%准确率。验证了FT-NIRS结合统计特征与多模态融合在非破坏性快速溯源中的有效性,为光谱数据挖掘提供新方法。

  
作者:邓克·傅(Dengke Fu)、魏泽杨(Weize Yang)、梅泉杨(Meiquan Yang)、王远中(Yuanzhong Wang)、张金玉(Jinyu Zhang)
单位:云南省农业科学院药用植物研究所,中国昆明650200

摘要

在本研究中,我们利用傅里叶变换近红外光谱(FT-NIRS)技术实现了对12个“兰香果”(Lanxangia tsao-ko,简称LT)采集点的精确追溯。为了深入挖掘FT-NIRS的实用信息,我们提取了45个统计特征,并将这些统计特征与FT-NIRS数据进行了融合。结果表明,在融合策略下,决策树(Decision Tree, DT)、K最近邻(K-Nearest Neighbor, KNN)和朴素贝叶斯(Naive Bayes, NB)三种经典机器学习模型的性能显著提升。这表明统计特征可以作为表征变量来提高模型的建模能力。基于门控循环单元(Gated Recurrent Unit, GRU)和卷积神经网络(Convolutional Neural Network, CNN)构建的多模态模型1D-2D-GRU-CNN-Attentio(1–2-GCA)能够有效融合一维序列和二维图像的特征,LT采集点的识别准确率可维持在90%以上。这说明多维特征的融合能够有效反映样本信息,是一种潜在的数据挖掘工具。此外,基于二维相关光谱(2DCOS)和三维相关光谱(3DCOS)的残差神经网络(Residual Neural Network, ResNet)模型具有很强的泛化能力和鲁棒性,在多种分类任务中保持100%的准确率,是五种模型中表现最好的。总之,本研究不仅实现了LT采集点的精确追溯,提供了一种无损、快速且可靠的 authenticity 验证方法;同时,统计特征的提取和多维数据的融合也为光谱数据的深入挖掘和价值最大化提供了理论基础。

引言

“兰香果”(Lanxangia tsao-ko, LT)作为一种常见的香料,常用于去除肉制品中的异味[1]。研究表明,LT富含黄酮类化合物、酚酸等多种具有药理活性的成分,如抗肿瘤、抗氧化、抗炎、调节胃肠道功能以及神经保护作用[2][3][4][5]。LT最初从越南引入中国,目前主要分布在云南、广西、四川等西南地区[5]。2020年,云南全省LT的种植面积为220万亩,占全国种植面积的91.7%,实现农业产值22亿元[4]。LT产业已成为云南重要的扶贫项目,多种LT衍生产品(如啤酒、牙膏、香水、面膜、果酱和茶叶)已上市[https://www.yn.gov.cn/)。总体而言,LT具有重要的药用、农业和商业价值。然而,气候和土壤等环境因素的变化会显著影响LT中活性成分的组成和含量[4][6],导致不同来源的LT品质参差不齐,高品质LT价格更高[7]。不法商贩可能趁机掺假,因此准确识别LT的来源至关重要,以确保LT医药和工业产品的安全性和有效性,维护市场交易的公平性,保护消费者的合法权益。
传统的LT品质鉴定方法包括形态学、理化成分分析和基因表达分析[1][4][5][8],但这些方法存在操作复杂、耗时、成本高、主观性强以及实际应用中准确性较低的缺点。因此,亟需一种成本低廉、快速且无损的鉴定方法。傅里叶变换近红外光谱(FT-NIRS)能够以无损、快速、简单和准确的方式提供样品中化合物的结构信息[9][10]。近年来,随着计算机算法的快速发展,FT-NIRS与多种算法结合的方法被广泛应用于农产品、食品和药品的质量追溯,有效提升了产品的真实性和可靠性。例如,有研究将NIRS与化学计量学结合,实现了对高丽参(Gastrodia elata)来源的100%准确鉴定[11];另有研究通过将机器学习模型与FT-NIRS数据结合,有效识别了牛肝菌(Boletus bainiugan)的储存年龄并预测其核苷含量[12]。
目前,模型训练通常使用每个波数点的吸光度作为特征,但这存在大量线性冗余[13]。此外,单一光谱只能反映有限的样本信息,需要融合来自多个来源的光谱数据以补充信息、提升模型性能[9]。为了提高单光谱的数据利用率并进一步挖掘光谱序列的实用信息,人们从高光谱数据中提取了均值(Mean Value, MV)、能量(Energy, EN)、熵(Entropy, E)和方差(Var)等统计特征,用于提高海产品总挥发性氮(Total Volatile Elements Nitrogen, TVB-N)的预测准确性以及海产品质地分析(Texture Profile Analysis, TPA)[14][15]。熵特征也可用于光谱带特征选择[16]。经典机器学习模型包括早期开发并在多个领域广泛应用的算法(如偏最小二乘判别分析Partial Least Squares Discriminant Analysis, PLS-DA、K均值聚类K-Means、随机森林Random Forest、支持向量机Support Vector Machine等,Dong et al., 2023)。然而,将这些模型与FT-NIRS结合用于LT采集点识别的研究较少,决策树(DT)、K最近邻(KNN)和朴素贝叶斯(NB)在FT-NIRS数据集上的性能尚不明确。
卷积神经网络(Convolutional Neural Network, CNN)是一种端到端的深度学习算法,通过稀疏连接和权重共享策略能够有效学习光谱数据的局部抽象特征[12]。光谱数据是连续有序的序列,每个吸光度对应一个特定的波数,但CNN对这些波数的敏感度较低。门控循环单元(Gated Recurrent Unit, GRU)通过更新门和重置门能够高效学习和记忆光谱数据中的序列信息,有效解决了CNN中的梯度消失和梯度爆炸问题[18][19]。因此,结合CNN和GRU的多模态模型在光谱数据建模中也较为流行。例如,有研究将GRU用于一维数据(1D)分析,CNN用于二维图像识别,从而提高了单模型对稻谷枯萎的识别率[20]。尽管FT-NIRS能够反映样品的整体化学信息,但在建模前通常需要复杂的预处理或特征提取步骤[2]。由于样品中化学信息的复杂性,一维光谱数据中存在严重的峰重叠问题。二维相关光谱(2DCOS)通过将一维光谱数据映射到二维空间,有效解决了峰重叠问题并提高了分辨率[13][21];三维相关光谱(3DCOS)在三个维度上展示了FT-NIRS数据的特征,进一步提升了光谱分辨率[3][17]。基于2DCOS和3DCOS的残差神经网络(ResNet)在多种分类任务中表现出强大的分类能力,具有较好的收敛性和鲁棒性,无需任何数据处理[2][6][17][21]。
本研究基于690个LT样本的FT-NIRS数据,利用三种经典机器学习模型、一个多模态模型和一个深度学习模型成功识别了LT的地理来源,为LT的 authenticity 验证和资源利用最大化奠定了基础。

样本信息

共收集了来自中国11个采集点和越南1个采集点的690个LT样本,具体地点包括:四川(SC, 60个)、广西(GX, 60个)、保山(BS, 60个)、德宏(DH, 60个)、金平(JP, 70个)、屏边(PB, 70个)、富贡(FG, 70个)、贡山(GS, 70个)、普洱(PE, 60个)、文山(WS, 60个)、临沧(LC, 32个)以及越南(VIE, 18个)。采集后,首先清除样本表面的淤泥和枯叶,并将水分含量降至中国药典标准规定的14%以下。

原始光谱和统计特征分析

不同来源的LT的FT-NIRS光谱如图2A-B所示,在8357 cm?1、6780 cm?1、6300 cm?1、5660 cm?1、5170 cm?1、4720 cm?1和4270 cm?1附近存在7个明显的特征峰,不同来源的样品在这些峰的吸光度上存在差异。总体而言,不同来源的LT在峰形和峰位置上相似,但吸光度有所不同。这表明LT品质差异的主要原因是...

讨论

本研究使用了三种经典机器学习模型、一个多模态模型和一个深度学习模型来追踪和识别LT的来源。首次将DT、KNN和NB与FT-NIRS结合用于LT的识别,其出色的分类性能展示了它们的巨大潜力。FT-NIRS对功能团具有高度敏感性,能够检测不同来源LT之间的细微差异。在10,000–7000 cm?1波数范围内,四川(SC)和广西(GX)样品的吸光度...

结论

本研究利用FT-NIRS结合多种模型,实现了对不同地理区域LT的无损、快速识别。在五种模型中,ResNet具有最强的泛化能力和鲁棒性,是最适合用于LT采集点精确识别的工具。此外,我们的结果证明了光谱统计特征在模型构建中的适用性,以及多模态模型在数据挖掘中的潜力。

利益冲突声明

作者声明不存在可能影响本文研究的已知财务利益冲突或个人关系。

致谢

本研究得到了“星电英才”人才计划(项目编号:XDYC-CYCX-2022-0027)、云南省乡村振兴科技专项团队项目(项目编号:202304BI090032)、云南省云县中药材产业科技任务(项目编号:202404BI090006)以及Polygonatum kingianumAmomum villosumAmomum tsaoko种子产业创新研究(项目编号:202502AS100009-03)的支持。

作者贡献声明

邓克·傅(Dengke Fu):调查、撰写初稿、正式分析、方法学设计、软件开发、概念构思; 魏泽杨(Weize Yang):数据整理、项目管理、数据可视化、资源协调; 梅泉杨(Meiquan Yang):数据整理、调查、资源协调; 王远中(Yuanzhong Wang):监督指导、结果验证、资源提供; 张金玉(Jinyu Zhang):撰写修订、资金争取、项目管理。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号