《Chemometrics and Intelligent Laboratory Systems》:A study on Q and T2 in Partial Least Squares regression models
编辑推荐:
本研究评估了PLS回归中Q和T2统计量常用参数分布(F、卡方)对模型的影响,发现其导致结构复杂且不一致,而高斯核(非参数)有效解决问题。强调应独立设定Q和T2的置信水平。
D. Castro-Reigía | O. Valencia | M.C. Ortiz | L.A. Sarabia
布尔戈斯大学理学院化学系,Plaza Misael Ba?uelos s/n,布尔戈斯 09001,西班牙
摘要 偏最小二乘法(PLS)作为一种回归方法的一个显著特点是,在模型预测空间中定义了一个称为“PLSbox”的区域,该区域之外的数据不应使用该模型进行预测。在多变量回归中,原始变量集被简化为一组潜在变量,这通常发生在化学分析中使用的现代仪器生成的数据中,这对于识别异常值数据具有显著的优势。
构建PLSbox需要假设Q统计量和T2统计量的概率分布,并计算出在所需置信水平下的临界值。尽管这一点很重要,但所选概率分布的影响尚未得到系统研究。像Snedecor的F分布和卡方分布这样的参数分布被广泛接受,尽管它们的有效性依赖于数据的多元正态性,而这一假设并不能预先确定。
本研究通过四个不同的案例研究评估了常用的Q和T2参数分布对PLS模型的影响,发现许多情况下存在拟合问题,更重要的是,这些分布对PLS模型结构产生了显著影响。当使用高斯核(一种与分布无关的方法)时,这些问题消失了。此外,研究还强调了为Q和T2选择的置信水平之间的相互作用对准确性系数的影响,表明应分别选择这些置信水平。
章节摘录 引言 偏最小二乘回归(PLSR)[1]是一种基于潜在变量的多变量回归方法,在化学分析领域被广泛用作校准方法[2]、[3]。在多变量校准中,识别能够被适当建模的样本至关重要[4]。
在使用PLSR时,两个统计量——Hotelling的T2和残差Q——用于确定样本在预测变量空间中的位置。如果 是一个有N 行(样本)和V 列(变量)的矩阵,那么...
理论与方法 本节详细介绍了结果部分中使用的相关方法。
PLS是由H. Wold提出的基于潜在变量的多变量回归方法。由于现代化学仪器的出现,它在化学分析领域得到了迅速发展,成为一种多变量校准方法[41]、[42],因为这些仪器可以为每个样本提供向量、矩阵,甚至是立方体或超立方体的数据。
PLS始终基于经典的多变量统计理论进行构建,这使得...
实验数据 分析了四个包含真实数据的案例研究:
案例1
本研究中的第一个案例应用了一个PLS模型来量化橄榄油中掺入葵花油的情况。橄榄油被掺入了不同浓度的葵花油,分别为2%、4%、6%、8%和10%(体积比),在此之前,已通过认证实验室确认用于制备混合物的橄榄油未掺假。对于4%和8%的浓度,分别准备了两个实验重复样本。
结果与讨论 对于案例1,表2显示了使用PLS校准程序(见第2.1节和图1)以及第2.2节描述的方法构建PLSbox后获得的结果。表2中的每一行都有其特定的含义:前两个字符(Ja 、Pc 、Pr 、Kg )表示用于拟合Q和T2的分布(根据表1);接下来的字符表示用于定义PLSbox的方法(和/或 ),如第2.2.2节和图2所述;最后...
结论 Q和T2统计量的临界值取决于用于计算它们的概率分布。
研究表明,最常用的参数分布(F分布和卡方分布)根据所需的置信水平表现出复杂且非系统性的行为。这阻碍了在它们之间建立明确的选择标准,因此也限制了它们的普遍应用。
另一个相关...
CRediT作者贡献声明 O. Valencia: 撰写——审阅与编辑、初稿撰写、监督、数据分析、概念构建。M.C. Ortiz: 撰写——审阅与编辑、初稿撰写、监督、数据分析、概念构建。D. Castro-Reigía: 撰写——审阅与编辑、初稿撰写、调查、数据分析、概念构建。L.A. Sarabia: 撰写——审阅与编辑、初稿撰写、软件开发、方法论设计、数据分析、概念构建。
利益冲突声明 作者声明他们没有已知的财务利益冲突或个人关系可能影响本文所述的工作。