基于机器学习的雪茄烟草叶片可追溯性与感官预测:挥发性成分与非挥发性成分的二维数据对比
《Industrial Crops and Products》:Machine learning-based traceability and sensory prediction of cigar tobacco leaves: A dual-dimensional data comparison of volatile and non-volatile components
【字体:
大
中
小
】
时间:2026年05月01日
来源:Industrial Crops and Products 6.2
编辑推荐:
张洪飞|张雅静|李东亮|安洪月|朱蓓蓓|江星毅|何胜宝|朱凤鹏|罗彦波|李向宇|刘帅|王蓓|庞永强|高伟民|陈兴峰
中国国家烟草质量监督检验中心,中国郑州市高新经济技术开发区绿竹街6号,450001
**摘要**
雪茄烟草叶(CTLs)的地理溯源对于质量控制至关重要
张洪飞|张雅静|李东亮|安洪月|朱蓓蓓|江星毅|何胜宝|朱凤鹏|罗彦波|李向宇|刘帅|王蓓|庞永强|高伟民|陈兴峰
中国国家烟草质量监督检验中心,中国郑州市高新经济技术开发区绿竹街6号,450001
**摘要**
雪茄烟草叶(CTLs)的地理溯源对于质量控制至关重要;然而,现有方法主要依赖于单一数据类型。本研究整合了挥发性有机化合物(VOCs)和非挥发性化学成分(NVCs),建立了一个二维溯源框架。通过应用七种机器学习算法,我们对来自中国四个主要种植区域(云南、四川、海南和湖北)的CTLs进行了地理溯源,并探讨了它们对感官属性的预测能力。主要发现如下:(1)每个区域都表现出独特的化学特征;(2)模型选择遵循数据-环境适应原则。对于基于VOCs的模型,在云南、四川和海南,线性模型优于非线性模型;而在环境异质性较强的湖北地区,非线性模型占主导地位。对于基于NVCs的模型,在所有四个区域中线性模型都表现出优越性;(3)在感官预测方面,两种数据类型的预测能力相对有限,只有余味和灰分颜色显示出轻微的预测能力,表明这两种数据类型与感官属性之间的关系需要进一步探索。通过阐明数据维度、环境特征和算法性能之间的适应关系,本研究为建立CTLs的二维溯源系统提供了方法论基础,并为未来的感官预测研究指明了初步方向。
**1. 引言**
烟草(Nicotiana tabacum L.)作为遗传和次级代谢研究的模式生物具有双重意义,同时是一种全球重要的经济作物,其品质特性受到生产区域生态条件的深远影响(Jing等人,2024年)。雪茄属于高端烟草产品,以其浓郁的香气、饱满的烟雾和复杂的风味特征而著称(Cui等人,2023b;Jiang等人,2025年;Zhu等人,2025年)。随着全球雪茄市场价值接近200亿美元,其在农业贸易和文化消费中的经济重要性持续增长(Vu等人,2021年;Wu等人,2023年)。雪茄的质量受多种因素影响,包括基因型、土壤性质、地理位置(海拔、经度和纬度)以及气候变量(温度、日照时长和降水量)(Cui等人,2023b)。在经济全球化加速的背景下,农产品的跨区域流通问题日益突出,质量安全和地理来源溯源成为全球关注的重点(Li等人,2018年;Liu等人,2022年;Xiong等人,2022年)。中国的云南省已成为国内高品质雪茄烟草叶(CTLs)的最大生产基地,得益于其优越的自然条件和先进的种植技术。中国的其他主要生产区域包括海南省(HN)、四川省(SC)和湖北省(HB)。对于雪茄而言,地理真实性直接决定了其品质等级和市场价值。然而,掺假、伪造和跨区域走私等欺诈行为损害了消费者权益并扰乱了市场秩序(Nguyen等人,2020年)。因此,建立准确高效的雪茄来源溯源系统对于确保该行业的可持续发展至关重要。
已有大量研究使用近红外光谱(NIR)、元素分析和稳定同位素指纹技术等先进分析技术对烟草进行地理鉴别(例如,Omar等人结合NIR和化学计量学技术来区分香烟的地理来源)。Cui等人利用同位素比值质谱(IRMS)和电感耦合等离子体质谱(ICP-MS)分析烟草中的稳定同位素和元素组成,实现了烟草叶来源的分类和溯源(Cui等人,2023a;Cui等人,2023b)。Wu等人利用碳/氮代谢物和矿物元素在国家和区域层面上确定雪茄来源(Wu等人,2023年),而Wang等人通过DNA指纹技术对烟草种质进行了群体结构和品种鉴定(Wang等人,2021年)。Alvira等人还应用激光诱导击穿光谱技术进行手工卷制雪茄的质量控制和来源认证(Alvira等人,2015年)。这些研究共同验证了基于化学的烟草产品溯源的可行性。然而,对于高端CTLs而言,实现更高的鉴别精度尤为重要,因为来源直接影响了其市场价值。这需要探索更能直接反映来源特性的化学维度。
风味化合物的独特表征能力使其在食品科学、草药医学和包装材料分析等多个领域中发挥着重要作用。它们的相关性已扩展到烟草来源溯源领域,研究团队开始利用风味化合物进行地理鉴别。Chen等人分析了来自云南不同生产区域的雪茄烟草叶的挥发性化合物谱(Chen等人,2025年)。Zhu等人应用顶空气相色谱-离子迁移谱技术表征了四川、海南和湖北地区的挥发性风味成分(Zhu等人,2024年)。Qi等人结合顶空程序升温气相色谱-质谱技术和主成分分析,探讨了熏制烟草中挥发性成分与地理来源之间的关系(Qi等人,2022年)。此外,Liu等人使用气相色谱-质谱(GC-MS)分析了四川不同地区的熏制烟草中的挥发性化合物,以区分地理来源和品种(Liu等人,2013年)。尽管这些研究提供了多种烟草来源溯源的方法途径,但目前的研究仍主要集中在分析单一数据类型上。尚未系统比较挥发性有机化合物(VOCs)和相对稳定的非挥发性化学成分(NVCs)谱的溯源效果,也缺乏结合多种算法进行综合评估的研究。
为填补这一研究空白,我们从云南、四川、海南和湖北的主要生产区域收集了135个CTL样本,构建了一个整合VOCs和NVCs的二维数据框架,并系统应用了七种机器学习算法,包括逻辑回归(LR)、支持向量机(SVM)、决策树(DT)、随机森林(RF)、梯度提升决策树(GBDT)、极端梯度提升(XGBoost)和多层感知器(MLP)。本研究旨在:(1)同时应用VOCs和NVCs筛选特定来源的标志物;(2)系统比较两种成分类型在各种算法和生产区域中的溯源性能差异;(3)探索二维数据框架对感官属性的预测能力,为优化CTLs的地理溯源方案和推进雪茄风味特性研究提供参考。
**2. 材料与方法**
2.1. 材料和样本采集
二氯甲烷(纯度≥99.9%)和乙腈(纯度≥99.9%)购自上海Macklin生化有限公司。苯乙酸酯(纯度99%)同样购自该公司。高色素样本提取试剂盒(目录号SJ-JH-01;含1克无水硫酸镁、0.25克氯化钠、0.25克柠檬酸钠和0.125克柠檬酸氢二钠)购自河南Songjian标准材料技术有限公司。高色素样本纯化试剂盒(目录号SJ-JH-02;含150毫克无水硫酸镁、20毫克n-丙基乙二胺键合固体吸附剂、20毫克C18吸附剂和10毫克石墨化碳黑吸附剂)也购自该公司。
共收集了来自中国四个主要生产区域的135个CTL样本:云南(n=27)、四川(n=30)、海南(n=32)和湖北(n=46)。采样遵循全面覆盖原则,涵盖了每个省级生产区域内所有从事大规模CTLs种植的县级城市(样本详情见表1),从而反映了生产区域的实际地理分布。在此基础上,采用分层采样方法确保每个县级城市的子生产区域样本量基本均衡。这种方法增强了机器学习模型的区分能力。
**表1. 雪茄烟草叶样本信息**
| 来源(省份) | 生产区域(城市) | 样本数量 |
| ---- | ---- | ---- |
| 云南 | 临沧 | 11 |
| | 普尔 | 16 |
| | 德阳 | 16 |
| | 达州 | 14 |
| 海南 | 丹洲 | 16 |
| | 同昌 | 16 |
| 湖北 | 丹江口 | 15 |
| | 宜昌 | 16 |
| | 恩施 | 15 |
| 合计 | 135 |
2.2. 挥发性有机化合物的分析
VOCs采用GC-MS(7890 A/5975 C,Agilent Technologies, Inc.,美国加州圣克拉拉)进行分析。样本处理步骤如下:将2克CTL粉末放入50毫升带盖离心管中,浸泡在10毫升水中10分钟,然后加入10毫升乙腈和0.1毫升苯乙酸酯内标(100 μg/mL),涡旋1分钟,放入冰箱冷冻10分钟。随后加入高色素样本提取试剂盒,涡旋2分钟以防止硫酸镁聚集,再以4000 rpm离心10分钟。用移液管将上清液1毫升转移到1.5毫升试管中,加入高色素样本纯化试剂盒,涡旋2分钟,以6000 rpm离心2分钟,收集上清液用于GC-MS分析。这种预处理方法解决了烟草基质中色素和脂质过多干扰目标化合物测定和降低检测精度的问题。
GC-MS的操作条件如下:使用DB-5熔融石英毛细管柱(60 m × 0.25 mm × 0.25 μm),入口温度为270 ℃,分流比为20:1,进样量为1 μL,载气为氦气,流速恒定为1 mL/min,溶剂延迟时间为6分钟。加热程序为:初始温度60 ℃持续0.5分钟,然后以2 ℃/分钟的速度升至280 ℃并保持30分钟。离子源为电子电离(EI)源,电离电压为70 eV,离子源温度为230 ℃,传输线温度为280 ℃。质量扫描范围为30–350 m/z。化合物鉴定通过将质谱与国家标准与技术研究院(NIST)14库进行匹配完成,匹配得分超过80的化合物被保留。进一步通过真实标准的保留时间验证鉴定结果。定量通过将选定离子的峰面积与外部标准校准曲线进行比较实现。
2.3. 化学成分的分析
采用多技术分析框架对CTLs进行系统化学表征。常规化学成分(总糖、还原糖、总氮、钾和氯)使用连续流分析系统进行定量,方法参照Liu等人(2021年)的程序。酸性物质通过GC–MS测定。生物碱和质体色素含量按照中国烟草行业标准YC/T 383–2010和YC/T 382–(2010)(2010a)、(2010b)进行测量。氨基酸和多酚谱通过高效液相色谱分析。氨和无机阴离子通过离子色谱测定,无机阳离子和重金属浓度通过电感耦合等离子体质谱测定。
2.4. 感官评估
CTLs由专业雪茄制造商手工卷制成长度为110毫米、直径为14毫米的雪茄。这些雪茄在22 ℃和65%相对湿度下条件处理72小时以平衡其水分含量。感官质量由五位专家使用长城雪茄厂(四川)提供的标准评估表进行评估。所有评估成员均具有五年以上的感官评估经验,并接受了超过六个月的正式培训。评估依据以下12项标准:清洁度、细腻度、香气强度、成熟度、浓郁度、甜美度、刺激性、余味、可燃性、灰分颜色和灰分凝结度。评分范围为0到9分,分数越高表示风味越浓郁。每个样本的评分由所有评估成员一致同意。
2.5. 基于机器学习算法的地理溯源和感官预测
为系统评估不同机器学习算法在CTLs来源溯源和感官预测方面的性能,选择了七种代表性算法。表2总结了这些算法的核心特性。后续分析主要根据算法的线性/非线性区分能力进行分组:LR和线性核SVM归为线性方法,MLP、DT以及各种集成树算法(RF、GBDT和XGBoost)归为非线性方法。该框架旨在系统地研究不同环境特征区域之间的化学数据分布的适应性模式以及算法特性之间的关联。所有实验均使用Python 3.11进行。数据准备使用pandas包完成,模型开发则使用scikit-learn(sklearn)包进行。表2列出了七种机器学习算法的特性。
| 算法 | 特性 |
|-----------------|-----------------------------------------------------------|
| 逻辑回归(LR) | 一种使用线性函数拟合数据的广义线性模型(Gentilin, 2025) |
| 支持向量机(SVM) | 通过核函数将数据映射到高维空间,能够灵活处理线性和非线性问题(Tian et al., 2023) |
| 多层感知器(MLP) | 通过多层结构和非线性激活函数学习复杂的非线性映射(Kussul et al., 2017) |
| 决策树(DT) | 通过递归划分特征空间生成“如果-那么”规则树,提供关键决策路径的直观可视化(Rokach, 2016) |
| 随机森林(RF) | 利用特征采样并从大量决策树集合中聚合预测结果(Sun et al., 2024) |
| 梯度提升决策树(GBDT) | 迭代构建决策树,每棵新树都专注于纠正前一个集合的残差(Hancock and Khoshgoftaar, 2020) |
| 极端梯度提升(XGBoost) | 利用正则化和计算效率处理高维数据并控制过拟合风险(Shahhosseini et al., 2021) |
为了在有限的样本量(N = 135)内获得可靠的性能估计,本研究统一采用了留一法交叉验证(LOOCV)作为模型训练和评估的框架。在每次LOOCV迭代中,使用N-1个样本来训练模型,然后在剩余的单个样本上进行测试。这种策略最大化了数据利用率,并为小样本研究提供了可靠的泛化性能估计(Lanjewar et al., 2024)。具体的交叉验证方案如图1所示。
**图1. 留一法交叉验证流程图。** CV:交叉验证;AUC:曲线下面积;RMSE:均方根误差。
2.5.1. 原产地可追溯性建模方案
鉴于本研究涉及的大量化合物,初步实验表明某些单个化合物在产地识别方面表现出较高的区分能力,而化合物之间的交互作用贡献相对较小。因此,采用了单变量建模方法。具体来说,四个产地的每个都有作为因变量的二分类变量,而单个化合物的测量值作为自变量。分别应用了七种机器学习算法为每种化合物-产地组合构建交叉验证(CV)模型。
尽管单变量模型没有考虑化合物之间的相互作用,但由于它们的模型复杂性较低,因此非常适合本研究的样本量较小的情况。数据尺度没有观察到差异,并且数据集中没有缺失值,从而可以直接构建模型。模型超参数设置为sklearn提供的默认值。模型性能使用接收者操作特征曲线下面积(AUC)进行评估(Qiu et al., 2022, Qiu et al., 2024)。对于每个产地,选择AUC值最高的五个化合物进行进一步分析。AUC的计算公式如下:
AUC = ∑i∈pos (ranki ? M) / (1 + M × N)
其中pos表示正样本集(即y = 1的样本),ranki表示第i个样本的预测值排名,M是正样本的数量,N是负样本的数量。
本研究没有考虑其他常用的指标,如准确率、精确度和召回率,原因有两个。首先,这些指标依赖于分类阈值的选择,引入了一定程度的主观性,而AUC作为一种与阈值无关的度量方法避免了这一点。其次,本研究的目标是识别特定产地的化合物并探索感官预测,而不是比较不同算法的性能;因此,仅使用AUC就足以实现研究目的。
2.5.2. 感官预测建模方案
为了探索化学化合物与CTLs感官属性之间的关系,使用VOCs和NVCs作为自变量,十二个感官属性的得分作为因变量分别构建了预测模型。选择XGBoost算法来执行此任务,因为变量之间的复杂非线性关系使得传统线性模型无法有效拟合。
模型训练和评估使用LOOCV进行。在建模之前对自变量进行了标准化。数据集中没有缺失值,因此可以直接构建模型。模型超参数保持软件包中的默认设置。模型性能使用均方根误差(RMSE)和决定系数(R2)进行评估(Yang et al., 2023)。
3. 结果
3.1. 基于VOCs的产地可追溯性建模
本研究系统评估了七种机器学习算法在区分CTLs产地方面的有效性,揭示了不同生产区域特征VOCs的差异(图2,图3)。基于模型AUC结果进行了描述性分析。YN、SC和HN区域表现出相对独特的特征VOC谱型,可作为可靠的产地标记,而HB区域在其特征VOCs方面的内部一致性较低。如图2所示,YN区域的稳定标记包括4-羟基苯乙醇(平均AUC = 0.95)、1,2-丙二醇(平均AUC = 0.96)和异佛尔酮(平均AUC = 0.92);SC区域主要依赖3-甲基丁酸(平均AUC = 0.93)和2-甲基丁酸(平均AUC = 0.90)进行区分。如图3所示,HN区域对3-苯基吡啶(平均AUC = 0.95)、2-甲基吲哚(平均AUC = 0.96)和苯乙醛(平均AUC = 0.92)表现出良好的区分性能。
**图2. 云南(YN)和四川(SC)雪茄烟草叶(CTLs)中特征挥发性有机化合物(VOCs)的多模型比较分析。** LR:逻辑回归;SVM:支持向量机;MLP:多层感知器;DT:决策树;RF:随机森林;GBDT:梯度提升决策树;XGBoost:极端梯度提升。
**图3. 海南(HN)和湖北(HB)CTLs中特征VOCs的多模型比较分析。**
在模型性能方面,使用线性方法(LR和SVM)构建的模型在YN、SC和HN生产区域表现出较强的可追溯能力,平均AUC为0.95。相比之下,基于非线性方法(MLP、DT、RF、GBDT、XGBoost)的模型在这些区域的平均AUC为0.91,表现不如线性模型。值得注意的是,HB区域的模型性能呈现出相反的趋势,其中非线性模型(平均AUC = 0.85)的表现略优于线性模型(平均AUC = 0.84)。
3.2. 基于NVCs的产地可追溯性建模
本研究基于矿物元素和有机成分构建了CTLs的产地追踪模型,揭示了不同产地的特征NVCs及其环境驱动机制(图4,图5)。基于模型AUC结果进行了描述性分析。YN区域的特点是黄酮类化合物(芸香苷,AUC = 0.97)和烟草特异性亚硝胺(NNK,AUC = 0.95;NAB,AUC = 0.92)作为标记。SC区域表现出镉富集(AUC = 0.97)以及对绿原酸(AUC = 0.91)和隐绿原酸(AUC = 0.90)的特异性。HN区域表现出Na?(AUC = 0.97)、叶黄素(AUC = 0.92)和可替宁(AUC = 0.96)的特征;HB CTLs表现出相对独特的矿物元素特征(Zn,AUC = 0.86;Ca2?,AUC = 0.85)。
**图4. 云南(YN)和四川(SC)CTLs中特征非挥发性化学成分(NVCs)的多模型比较分析。**
**图5. 海南(HN)和湖北(HB)CTLs中特征NVCs的多模型比较分析。**
在模型性能方面,基于NVCs数据,不同模型在四个产地识别出的关键特征成分变化不大。然而,线性模型(LR、SVM)在四个产地的区分性能优于非线性模型(MLP、DT、RF、GBDT、XGBoost,平均AUC = 0.89)。
3.3. 双维数据可追溯性性能的比较分析
为了比较VOCs和NVCs在统一模型框架内的产地区分能力,基于单变量LR进行了描述性分析(图6,图7,图8,图9)。SC和HB的NVCs表现出更强的可追溯性,平均AUC值分别为0.92和0.83,高于VOCs的0.90和0.75。对于YN,NVCs的平均AUC(0.93)略低于VOCs(0.94);然而,特征NVCs(芸香苷/NNK/NAB,0.97)的平均AUC高于特征VOCs(4-羟基苯乙醇/1,2-丙二醇/异佛尔酮,0.96)。HN的两个数据维度的区分性能相当(平均AUC = 0.93)。总之,除了HN之外,NVCs在其他三个区域表现出相对于VOCs的区分优势,这表明数据维度的有效性可能与区域环境特征有关。
**图6. VOCs与NVCs在追踪YN CTLs地理产地方面的区分效果。**
**图7. VOCs与NVCs在追踪SC CTLs地理产地方面的区分效果。**
**图8. VOCs与NVCs在追踪HN CTLs地理产地方面的区分效果。**
**图9. VOCs与NVCs在追踪HB CTLs地理产地方面的区分效果。**
3.4. 双维数据的感官预测比较
基于消费者对雪茄的偏好主要由其综合化学谱型决定的理解(Alvira et al., 2015, Zhu et al., 2024),如果使用样本均值作为恒定的预测基线(即不进行建模),预测误差等于样本标准差(SD),这反映了数据的固有变异性。当模型的RMSE低于SD时,认为该模型具有优于基线的预测能力。
进一步分析十二个单独的感官属性显示,两个数据维度在性能上存在差异(表3)。结果表明,两个数据维度的预测能力相对有限:对于VOCs,余味(R2 = 0.3328)和灰分颜色(R2 = 0.3883)表现出轻微的预测能力;对于NVCs,柔和度(R2 = 0.3338)、余味(R2 = 0.3669)和灰分颜色(R2 = 0.3623)也表现出轻微的预测能力。
**表3. VOCs和NVCs在感官评分方面的预测性能。**
| 感官属性 | SD | RMSE (VOCs) | R2 (VOCs) | RMSE (NVCs) | R2 (NVCs) |
|-----------------|------------|-------------|------------|-------------|-------------|
| 芳香强度 | 0.62 | 13 | 0.57 | 0.96 | 0.6388 | -0.065 |
| 丰富度 | 0.69 | 0.66 | 0.57 | 0.66 | 0.6279 |
| 成熟度 | 0.66 | 0.61 | 0.95 | 0.12 | 0.58 |
| 刺激性 | 0.64 | 0.57 | 0.57 | 0.19 | 0.56 |
| 柔和度 | 0.64 | 0.62 | 0.58 | 0.17 | 0.53 |
| 细腻度 | 0.65 | 0.56 | 0.56 | 0.25 | 0.18 |
| 甜度 | 0.63 | 0.62 | 0.94 | 0.01 | 0.61 |
| 清洁度 | 0.62 | 0.54 | 0.54 | 0.22 | 0.57 |
| 余味 | 0.69 | 0.56 | 0.33 | 0.54 | 0.36 |
| 可燃性 | 0.64 | 0.62 | 0.82 | 0.04 | 0.65 |
| 灰分颜色 | 0.95 | 0.74 | 0.74 | 0.38 | 0.76 |
| 灰分凝结 | 0.64 | 0.61 | 0.08 | 0.68 | -0.13 |
| 总感官质量得分 | 5.98 | 66 | 4.85 | 4.52 | 20.22 |
**注:** SD:标准差;RMSE:均方根误差;R2:决定系数;VOCs:挥发性有机化合物;NVCs:非挥发性化学成分
4. 讨论
4.1. 化学指纹的形成受环境异质性和模型拟合模式的影响
本研究识别了不同生产区域的特征VOCs和NVCs标记。对环境驱动机制及其对应数据分布特征的分析揭示了数据维度与机器学习算法之间的匹配模式。
基于基于VOCs的可追溯性结果,YN、SC和HN地区的CTLs的特征VOCs在不同模型中表现出相对较高的内部一致性。线性模型在这些区域的表现优于非线性模型,表明它们的特征与产地之间存在线性关系。特征VOCs的形成与环境因素密切相关,如微气候(例如温度和湿度)、土壤性质(例如pH值和矿物质含量)以及加工技术(Zheng et al., 2022, Zhang et al., 2024)。这表明,在本研究的样本范围内,三个省份的雪茄种植区域可能形成了具有内部一致环境条件的相对独特的生态单元。相比之下,非线性模型在HB核心雪茄种植区域表现出相对优势。这可能是由于该地区位于复杂的山地-平原过渡区和气候过渡带,环境和栽培因素的异质性较高,可能导致更复杂的非线性VOCs特征谱型(Boulesteix et al., 2012)。这一比较发现表明,在环境梯度显著的地区,需要采用非线性区分策略,为地理指示产品机制的研究提供了参考。
基于NVCs的可追溯性结果显示,四个生产区域各自表现出相对独特的特征化学指纹。在YN地区,黄酮类化合物和烟草特异性亚硝胺的富集可能与高原气候条件下的微生物活动有关。先前的研究表明,温度和湿度条件显著影响烟草特异性亚硝胺的形成(Staaf et al., 2005)。此外,阴凉条件下生长的雪茄烟草叶中芸香苷的积累可能与品种遗传和发酵微生物的次级代谢的协同作用有关(Guidi et al., 2016)。在SC地区,土壤中镉的富集可能与当地紫色土壤的特性有关(Shao等人,2024年)。同时,该地区氯化绿原酸和隐绿原酸的特异性可能与影响植物代谢的当地生态条件及其独特的CTLs发酵过程有关。发酵过程深刻地调节了酚酸的降解和转化途径,最终影响了成品烟草叶片中残留酚酸的组成和水平(Zhang等人,2023年)。在HN地区,Na?和叶黄素的特异性可能与当地热带海洋性气候下的高盐度土壤环境和强烈的阳光有关(Kumari和Jha,2019年),而可替宁的积累可能取决于品种遗传特性和雪茄发酵过程的控制。HB CTLs的典型矿物元素特性被认为与由石灰岩母质形成的高钙土壤、南北过渡带多样的母质以及发酵过程对灰分组成的调节有关。这些特征性NVCs的形成被认为与环境、遗传和发酵因素直接相关,导致NVC数据在特征空间内呈现近似线性的分布。因此,线性模型在基于NVCs的区分中显示出普遍性和稳健性的优势。从化学角度来看,这表明当数据本身表现出较强的规律性时,结构简单的线性模型可以作为有效且可靠的工具。
总之,本研究建立的基于二维化学指纹的区分框架为CTLs的来源追踪提供了一种方法论框架。选择追踪模型主要取决于化学数据维度的固有特性:对于基于VOCs的分析,在环境均匀的生产区域(YN、SC、HN),可以优先考虑线性模型(LR、SVM)进行快速筛选;而在环境不均匀的区域(HB),需要非线性模型(MLP、DT、RF、XGBoost、GBDT)来解析复杂模式。对于NVCs,其与环境的关联使得线性模型能够表现出很强的来源可追溯性。这为构建CTLs的二维可追溯性框架提供了见解。
4.2. 感官预测的探索性发现
本研究尝试基于VOCs和NVCs预测CTLs的感官属性。结果表明,这两个数据维度的预测能力相对有限,只有少数个别感官指标(如余味和灰分颜色)显示出轻微的预测能力。感官评估的固有主观性,受到个人偏好、情绪状态和环境因素的影响,是限制模型准确性的重要因素。这项研究代表了使用二维数据进行感官预测的初步探索。未来的研究将通过整合多源数据(如电子感官仪器)来深入探讨,以优化建模方法并捕捉化学成分与感官属性之间的复杂非线性关系。
4.3. 研究局限性和未来展望
本研究的主要局限性是样本量。尽管采用了全面的分层抽样设计,并结合LOOCV在小样本条件下优化评估,但总体样本量(N=135)仍然不足以完全验证模型的泛化能力。此外,感官评估的固有主观性和样本量的限制阻碍了对残留结构的系统分析以及多次重复验证以评估模型性能的稳定性。这些局限性在一定程度上影响了结论的泛化能力,但并不否定这项研究作为探索性框架的理论价值。未来的研究应通过大规模跨区域抽样构建更具代表性的样本集,以完善本研究提出的方法论框架。同时,为了解决小样本条件下的建模稳健性和验证问题,本研究采用了LOOCV方法结合单变量建模,共得到了1.4×10?个模型(375种化合物×135个样本×4个来源×7种算法)。考虑到计算规模,进行100次重采样迭代以计算AUC的置信区间将生成超过10?个模型,这在计算上是不可行的。因此,一些实验结论是描述性的,有待通过工程或算法优化来改进。
尽管存在这些局限性,结合二维化学指纹与多算法验证的框架为CTLs的地理追踪奠定了理论基础。为了将这一实验室框架转化为监管机构或企业可以直接应用的标准化、可操作的过程,后续研究应进一步探索:(1)方法标准化:标准化样品预处理和检测方法,以确保数据来源的一致性;(2)数据库构建:进行大规模、系统性的抽样,以建立全面的数据库;(3)模型优化和系统集成:在此研究的基础上,探索结合初步筛选和确认性辅助模型的混合模型,并将这些集成到可靠的软件工具中;(4)过程验证和标准化:与监管机构和企业合作进行验证和迭代改进,以制定地理标志产品认证的技术规范。
5. 结论
本研究通过整合挥发性和非挥发性化学指纹,使用七种机器学习算法系统地构建了CTLs的地理来源可追溯性模型。研究结果揭示了不同生产区域之间的独特化学标记,并揭示了基于数据维度的来源-机器学习算法兼容性模式。对于VOCs,在YN、SC和HN地区,可以优先考虑线性模型(LR、SVM)进行快速筛选;而在HB地区,则需要非线性模型(MLP、DT、RF、XGBoost、GBDT)来捕捉复杂模式。对于NVCs,线性模型在所有四个区域都显示出优势。此外,二维化学数据对感官属性的预测能力相对有限,只有少数指标(如余味和灰分颜色)显示出轻微的预测能力,表明化学成分与感官属性之间的关系需要进一步探索。总之,本研究为CTLs的地理可追溯性提供了一种方法论框架。未来的研究应扩大样本量,优化区域代表性,进一步标准化流程,并促进这一技术框架向工业应用的转化。
作者贡献声明
高伟民:调查
李东亮:调查、资金获取
张亚静:撰写-原始草稿、可视化、形式分析、概念化
庞永强:撰写-审阅与编辑、监督、资金获取、概念化
王蓓:撰写-审阅与编辑、可视化、数据管理、概念化
张宏飞:撰写-原始草稿、方法论、调查、形式分析、数据管理、概念化
刘帅:可视化、软件、形式分析
蒋星毅:调查
朱蓓蓓:调查、数据管理
陈兴峰:调查
安洪月:调查
李向宇:调查
罗彦波:调查
朱凤鹏:调查
何胜宝:调查
资助
本工作得到了中国国家烟草公司重大科技计划[110202101060(XJ-09)和110202201033(XJ-04)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号