《Physchem》:Machine Learning with Insufficient Data for Classification of Mixtures of Sunflower and Olive Oil Samples Using Laser-Induced Fluorescence Spectroscopy
编辑推荐:
食品质量验证自古以来便是科学家面对的问题,如今科学与技术的进步使其成为一个极具挑战性的任务。激光诱导荧光(Laser-Induced Fluorescence, LIF)光谱已成为样品表征的有用工具,但复杂多组分光谱的分析较为困难。近年来,人工智能的能力备受关
食品质量验证自古以来便是科学家面对的问题,如今科学与技术的进步使其成为一个极具挑战性的任务。激光诱导荧光(Laser-Induced Fluorescence, LIF)光谱已成为样品表征的有用工具,但复杂多组分光谱的分析较为困难。近年来,人工智能的能力备受关注,因其为许多原本耗时、费力、昂贵且常需灵感的问题提供了高效解决方案。本研究利用不同浓度特级初榨橄榄油与葵花籽油混合物的LIF光谱,应用神经网络(Neural Network, NN)算法以改进浓度确定的策略。研究人员采用两种不同方法——将浓度识别分别作为分类问题和拟合(回归)问题进行处理,并对结果进行比较。研究人员提出了四个具有生物化学意义的诊断参数(diagnostic parameters),并比较了使用原始光谱与使用诊断参数训练NN的性能。恰当选择具生物化学解释性的诊断参数对生化分析有重要意义,而"黑箱"全光谱训练可能对终端用户应用更有利。结果表明,即便在数据极度稀缺情况下这些方法仍表现良好,并为定义诊断准则提供了初步策略。
论文解读:利用激光诱导荧光光谱与少样本机器学习对葵花籽油—橄榄油混合物进行分类的研究(《Physchem》刊载)
一、研究背景与立项依据
食用油(特别是特级初榨橄榄油,Extra Virgin Olive Oil, EVOO)的市场价值较高,常被廉价植物油(如葵花籽油 Sunflower Oil, SO)掺假稀释,损害市场诚信与消费者利益。欧盟已出台严格法规监管橄榄油产地与纯度。传统确证方法如气相色谱(Gas Chromatography, GC)和液相色谱(Liquid Chromatography, LC)虽准确但耗时、需有毒试剂及专业人员。各类振动光谱技术(拉曼、傅里叶变换红外FT-IR、中近红外NIR及激光诱导击穿光谱 LIBS)被用于掺假检测,其中激光诱导荧光(Laser-Induced Fluorescence, LIF)因非侵入、快速、低成本及足够灵敏度受青睐。然而植物油为多组分复杂体系,其LIF谱受内滤效应(inner filter effect)影响,单一荧光强度指标存在非单调性与跨仪器不可移植性问题;且获取大量代表性样本耗时长,真实场景下常面临"数据不足(insufficient data)"困境,导致常规神经网络易过拟合。因此研究人员开展本研究,旨在通过合理提取具生化意义的诊断参数(diagnostic parameters)并结合数据增广的小样本训练策略,分别用分类与拟合两种方式建立LIF光谱与橄榄油体积浓度间的映射关系,评估其在同类/new样本上的泛化能力。
二、主要关键技术方法
研究人员采集6种市售橄榄油与6种葵花籽油,按橄榄油体积分数0%、10%…100%配制5组训练系列(Series 1–5,每组11个样品),另配含已知品牌中间浓度的测试系列T1及全新品牌全浓度梯度测试系列T2。使用405 nm连续半导体激光器激发,正交收集荧光耦合至OceanOptics QE65000光谱仪(积分时间0.5 s,光谱分辨率1 nm),原始光谱截取410–900 nm(每谱643点)并以~675 nm叶绿素红峰最大强度归一化。针对蓝波段(~450–560 nm)存在双肩峰结构,研究人员定义四个诊断参数:C1——红峰(~675 nm)波长位置;C2——红肩(~720 nm)平台与红峰强度比;C3——蓝短波特征(Shorter-Wavelength feature of Blue band, SW-B,~470 nm)波长位置;C4——蓝长波特征(Longer-Wavelength feature of Blue band, LW-B,~515 nm)与SW-B强度比。因小样本限制,各系列数据做100倍复制并添加频率依赖高斯噪声进行增广,按70%训练、15%验证、15%内部测试划分。分别构建MATLAB patternnet(分类,11类对应每10%浓度阶,隐层5神经元,Scaled Conjugate Gradient反向传播,交叉熵损失)与fitnet(拟合,隐层4神经元,Bayesian Regularization正则化最小化均方误差)两类前馈神经网络,输入为原始643维光谱或四维诊断参数向量,经盲测集T1/T2评估预测性能。
三、研究结果
5.1. Informational Parameters with Biochemical Meaning (Diagnostic Parameters)
通过逐谱提取C1–C4并绘制随橄榄油浓度变化曲线,发现红峰波长C1随OO含量呈微小漂移,纯SO因残存叶绿素呈异常偏移(归一化伪影);C2在高OO比例区趋于饱和;蓝波段在加OO后由单峰变为SW-B与LW-B双肩结构,C3给出SW-B位置,C4量化二者相对强弱且随浓度单调变化。四参数测量重复性高(C3相对误差≤0.6%,C4≤0.7%,C2≤0.2%)。纯SO(0% OO)蓝区无双峰故C4未定义,程序先判双峰间距<3 nm归零类再进入NN。表明综合考虑蓝带复杂线形的四参数较旧有三参数(假设蓝带单峰)更贴合实测光谱形态,具备生化可解释性。
5.2. Classification Approach
以patternnet将问题建模为11类别(每10% OO体积分数一 class),输出各类别后验概率加权和换算为预测浓度。盲测T1(同品牌异配比):四参数(C1–C4)、旧三参数(P1–P3)及原始光谱输入预测值与真值接近,略有过拟合迹象。盲测T2(全新油品组合):四参数法预测点明显更贴近理想45°线,优于三参数及原始光谱输入(后者对纯SO易误判)。分类概率散布直方图显示:无增广时概率散布大;增广后三参数及原始光谱训练散布缩小;四参数+增广使散布降至最小(约六倍方差缩减)。说明具生化意义的多维诊断参数配合噪声增广可有效抑制小样本下过拟合并提升类间判别。
5.3. Fitting Approach
以fitnet做连续浓度回归,贝叶斯正则化防过拟合。T1测试结果类似分类情形;T2测试中四参数输入轻微高估,三参数在低浓度低估而在高浓度轻微低估,原始光谱对纯SO失效。隐层超4–5个神经元即现过拟合趋势。表明在小样本下拟合框架可工作,四参数提供足够信息量,但需更多样化训练集充分发挥贝叶斯正则化优势。
四、讨论与结论总结(翻译浓缩结论部分)
对于基于光谱测量的组分分析应用,大量测量耗时费钱,若恰当选取诊断参数可用较少样本获近似效果。单一判据在有限样本看似够用,但换产商/产地致光谱结构变化可致严重误判;而足量数据下的全光谱训练虽预期表现好但是"黑箱"缺乏生化解释性。因此推荐多参数诊断法并评估预测因子重要性(无论是原始谱点还是提炼参数),可指示哪些波段适合构造高显著性的诊断准则。正确选择具生化意义的诊断参数有助于小样本情形下的模型泛化,而全光谱黑箱训练更适合终端用户设备应用。归一化光谱输入利于不同设备间数据迁移。此外,基于半导体激光的小型光谱仪可提供现场初筛可疑掺假样品以降低成本。
综上,本研究证明405 nm LIF光谱结合具生化含义的四诊断参数与噪声增广的小样本神经网络训练,可分别以分类或回归方式有效预测葵花籽油—橄榄油二元混合物的体积浓度;多参数法较单参数或旧版三参数提升泛化能力,为未来拓展至多组分复杂混合物及现场快检设备奠定方法学基础。