一种基于知识引导的结构化贝叶斯回归框架,用于光谱校准

《Chemometrics and Intelligent Laboratory Systems》:A knowledge-guided structured Bayesian regression framework for spectroscopic calibration

【字体: 时间:2026年04月27日 来源:Chemometrics and Intelligent Laboratory Systems 3.8

编辑推荐:

  提出结构化贝叶斯回归(SBR)框架提升光谱校正,通过变量重要性层次聚类(VIHC)将光谱分割为化学相关区间,结合贝叶斯自适应区间先验学习(BAPL)算法全局优化区间权重,有效捕捉结构化稀疏性,实验验证其预测精度和物理化学可解释性均优于现有方法。

  
张欣|吴鹏程|姜友辉|陈涛|邹晓波|李浩然
江苏大学电气与信息工程学院,镇江212013,中国

摘要

受到光谱固有结构稀疏性的启发,我们提出了一个结构化贝叶斯回归(SBR)框架来增强光谱校准。首先,引入了一种变量重要性层次聚类(VIHC)策略,该策略利用偏最小二乘回归(PLSR)得到的回归系数(RCs)对光谱进行层次聚类,以将其划分为具有化学意义的区间。其次,为了利用区间之间的协同效应,我们开发了一种贝叶斯自适应区间先验学习(BAPL)算法,该算法能够全局分析区间组合。具体来说,每个区间最初都赋予相同的先验,然后根据每个区间的边际似然值迭代调整其先验。这种全局学习策略系统地为信息丰富的区间赋予较大的先验权重,同时将无关区间逐渐缩减至零,从而捕捉和利用结构稀疏性。在多个真实世界光谱数据集上的实验结果表明,所提出的SBR框架不仅提高了预测准确性,还提供了更强的物理化学可解释性和有价值的化学洞察。更重要的是,这项工作展示了结构化贝叶斯学习在连接数据驱动建模和领域知识方面的潜力,为高级光谱校准提供了一个新的框架。

引言

光谱回归是一个涉及数据密集型任务的物理化学问题。将来自光谱响应机制和分子化学的领域知识整合到建模过程中对于实现最先进的性能至关重要[1]、[2]。具体来说,这些领域知识表现为两个关键的结构特征:稀疏性和连续性。稀疏性意味着光谱响应(如峰值)主要出现在与分析物强烈相关的化学键或官能团的振动模式对应的特定波长区域。连续性表明光谱信号在波长范围内表现为连续、平滑的轮廓,而不是离散点[3]、[4]。基于这些特征,从不同角度开发了许多策略来提高回归性能[5]、[6]。
在这些方法中,波长区间选择(WIS)因其能够同时捕捉稀疏性和连续性特征而受到广泛关注[7]、[8]。WIS将光谱划分为连续的区间,然后根据评估其对回归准确性贡献的优化标准整体选择或丢弃这些区间。最常用的策略是等宽分区,如区间PLS(iPLS)及其变体,例如移动窗口偏最小二乘(MWPLS)[9]、[10]、[11]、[12]。然而,等宽区间可能无法与有意义的光谱特征对齐,因为通常缺乏关于有意义区域的位置和宽度的先验知识。因此,提出了基于聚类方法的非等宽区间划分策略来更好地捕捉信息丰富的光谱区域[13]、[14]。这些方法的出发点是不同的光谱形状可以传达某些信息:特征峰值通常对应于具有化学意义的信号,而背景区域通常包含较少的敏感键。因此,自然会使用层次聚类方法来识别具有均匀响应模式的区域,利用相邻变量之间的相关性来指导区间划分。例如(层次)变量聚类和组平滑剪切绝对偏差(group SCAD)结合偏最小二乘(VCG-PLS)、加权聚类和波长变量剪枝偏最小二乘(WCPV-PLS)以及层次聚类和最优区间组合(HCIC)[15]、[16]、[17]。由于遍历所有区间组合以找到最优解是一个NP难题,当前研究仍然面临如何识别最优区间组合的基本挑战。最常见的方法依赖于启发式策略,例如单独评估区间或使用集成方法来全面分析它们对回归模型的贡献,这使得它们的性能对参数设置敏感,并且无法保证收敛到最优解。
为了解决这些限制,我们提出了一个结构化贝叶斯回归(SBR)框架来捕捉这种结构稀疏性并提高光谱校准的性能。主要创新和贡献总结如下:
(i) 变量重要性层次聚类(VIHC):与基于强度轮廓的传统变量聚类不同,我们提出了一种变量重要性层次聚类策略,其中使用偏最小二乘回归(PLSR)得到的回归系数(RCs)来量化变量重要性[18]。通过这种方式,光谱与目标分析物之间的关系被纳入聚类过程,这带来了两个优势。首先,由于不同的分析物对不同的化学敏感光谱区域有响应,这种策略实现了特定于分析物且具有化学相关性的光谱划分。其次,层次聚类通过将相似的变量分组到相同的连续区间中,而不是使用传统聚类方法将它们分布在分离的区域中,从而保留了光谱的连续带特征。
(ii) 贝叶斯自适应区间先验学习(BAPL):现有的基于区间的方法通常独立处理每个区间,并依赖于基于指示器的标准或启发式搜索策略进行选择,从而忽略了区间之间的协同效应,并对参数设置或采样方案敏感。为了系统地识别信息丰富区间的最优组合,我们开发了一种名为贝叶斯自适应区间先验学习(BAPL)的贝叶斯概率框架,以全局自适应地学习每个区间的先验。在此过程中,每个区间最初都赋予相同的先验以确保无偏的起点。然后,这些先验基于最大似然估计(MLE)策略进行自适应更新,该策略考虑了区间贡献的不确定性。随着学习过程的进行,这种基于似然的策略同时保留了具有较大先验的化学相关区间,同时将无关区间逐渐缩减至零,从而捕捉了固有的结构稀疏性。在真实世界光谱数据集上的实验结果表明,所提出的方法取得了出色的性能。重要的是,与传统启发式方法不同,SBR方法提供了一个系统框架,有效地将这些结构特征整合到建模过程中。
本文的结构如下:第2节介绍所提出的方法;第3节描述实验设计和使用的数据集;第4节展示和讨论实验结果;最后,第5节总结本文的主要结论。

章节片段

变量重要性层次聚类(VIHC)

在本文中,我们提出了一种变量重要性层次聚类机制(VIHC),用于将光谱划分为连续区间。该方法通过利用偏最小二乘(PLS)得到的回归系数(RCs)将响应信息纳入聚类过程。所提出的VIHC的详细信息将在以下部分描述。

数据描述

在这项研究中,我们选择了四个常用的数据集:玉米、水稻、韭菜和药片数据集,涵盖了食品成分分析和药物活性检测两个关键领域,以全面评估所提出方法的有效性。原始光谱显示在图S2中,详细说明见文本S1。

比较方法和参数设置

为了全面评估所提出方法的有效性,选择了几种代表性的比较方法:

玉米数据集

表2总结了玉米数据集在50次独立试验中的平均实验结果。正如结果所示,玉米中水分含量的预测性能几乎完美(例如,Rp2 = 0.99);因此,本文不再进一步讨论这种分析物(相应结果见表S1)。对于其余分析物,所提出的SBR方法始终表现出优越的预测性能,具有最低的RMSEP和最高的Rp2RPD

结论

在这项研究中,我们提出了一种基于领域知识的结构化贝叶斯回归(SBR)框架来增强光谱校准。首先,通过评估相邻回归系数(RCs)之间的相关性,开发了一种变量重要性层次聚类(VIHC)策略,从而识别特定于分析物且具有化学相关性的光谱区间。接下来,我们引入了一种贝叶斯自适应区间先验学习(BAPL)算法,以系统和全局地

CRediT作者贡献声明

张欣:撰写 – 审稿与编辑,撰写 – 原稿,监督,软件,方法论,概念化。吴鹏程:撰写 – 原稿,可视化,方法论,形式分析,数据管理。姜友辉:可视化,方法论,形式分析。陈涛:调查,形式分析,数据管理。邹晓波:撰写 – 审稿与编辑,监督,概念化。李浩然:撰写 – 审稿与编辑,监督,资源获取。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

作者李浩然和张欣感谢镇江关键研发GY2025041)和中国国家重点研发计划2022YFD2000200)。作者邹晓波感谢中国农业研究系统专项基金
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号