综述：方差分析-同步成分分析二十年应用进展：一项系统综述

《Analytica Chimica Acta》：Twenty years of ASCA: a systematic review of applications for ANOVA-Simultaneous Component Analysis

【字体：大中小】 时间：2026年04月14日 来源：Analytica Chimica Acta 6

编辑推荐：

　　本文是ASCA（ANOVA–simultaneous component analysis）方法应用二十年来的首次系统性文献述评。作者依据PRISMA原则筛选了158篇应用研究，系统梳理了该方法在农业食品、生物学、代谢组学等领域的应用现状，并揭示了当前研究中实验设计报告、效应量量化、验证策略（如置换检验）和残差解读等方面存在的显著不一致性。文章为提升ASCA研究的稳健性和可复现性提供了详实的实践依据与具体建议。

在分析化学、生命科学等领域，现代仪器产生的数据日益复杂，往往呈现出高维多变量的特点。传统的单变量方差分析（ANOVA）在处理这类数据时显得力不从心，因为它无法有效捕捉和解释变量间的协同变化模式。在此背景下，一种结合了方差分析框架与潜变量建模优势的方法——方差分析-同步成分分析（ANOVA–simultaneous component analysis, ASCA）应运而生，并在此后二十年中不断发展与普及。

ASCA 方法的核心流程

ASCA 提供了一个结构化的分析框架，用于解析源自实验设计的多变量数据。其标准分析流程可概括为以下几个关键步骤：

首先是问题定义与实验设计。一个严谨的 ASCA 分析始于数据分析之前，核心在于明确定义分析问题并构建能够解答该问题的实验设计。这包括确定感兴趣的因子、其水平、可能的交互作用以及重复的结构。清晰区分实验重复、分析重复和仪器重复对于准确估计变异成分至关重要。此外，还需注意设计是“交叉”还是“嵌套”，这直接影响方差成分的估计。

第二步是数据检查、缺失值处理与预处理。在获得数据后，需进行仔细检查。对于多维数据（如样本 × 波长 × 时间），通常需要将其展开为二维矩阵后再进行ASCA分析。需通过主成分分析（PCA）等探索性方法检测异常模式或样本。对于缺失值，需根据其产生机制谨慎处理，避免破坏实验设计的平衡性。预处理（如归一化、转换、缩放）旨在消除与研究因子无关的假象，但会改变数据中的方差结构，因此需要基于对分析技术和研究目标的深刻理解来谨慎选择，并透明报告。

第三步是因子分解：方差分解。这是ASCA框架的定义性步骤，即ANOVA步骤。响应矩阵（Y）被分解为总均值矩阵（M）、对应于实验设计中各主因子（如Y_A, Y_B）和交互作用（如Y_AB）的效应矩阵，以及一个收集剩余（单元内）变异性的残差矩阵（E）。对于非平衡设计，需要使用基于回归的分解方法（如ASCA+）或广义线性混合模型（GLMM）来获得无偏估计。

第四步是效应量量化。在估计出效应矩阵后，通常通过计算每个效应矩阵的平方和（SS），并将其表示为解释方差（EV）的百分比，来量化其相对重要性。这提供了一个直观的摘要，说明了与每个主因子和交互作用相关的变异性占总体变异性的比例。

第五步是通过置换进行显著性评估。为了评估观察到的ASCA效应是否偶然出现，通常依赖置换检验。在这种假设检验框架中，通过重复打断多变量响应矩阵与设计标签之间的关联（随机化），构建一个在原假设（效应由随机变异产生）下的经验分布，然后将观察到的统计量（如效应矩阵的SS）与之比较，计算出p值。置换方案的选择（如全局标签重排与在区组或受试者内重排）直接影响零假设，需要根据实验设计明确报告。

第六步是成分建模与可视化。分析流程的最后一步是从每个效应矩阵中提取可解释的潜成分。对效应矩阵应用同步成分分析（SCA，概念上等同于PCA），得到与每个因子相关的多变量结构的低维表示。得分图显示各因子水平在潜空间中的差异，载荷图则揭示导致这些差异的关键变量。残差变异也可以投射回潜空间，生成增强的得分图，以显示因子水平分离程度相对于组内变异的大小。

最后是模型解读。这是将统计结果转化为在研究背景下有意义的结论的关键阶段。解读应基于效应量、显著性检验、成分模型和残差行为的有机结合。只有那些在大小上不可忽略且通过置换检验得到统计学支持的效应，才应被解释为系统性效应。载荷图有助于识别驱动分离的变量，而残差中的结构可能提示未建模的因子或模型假设的违反。

二十年应用全景：实践、差异与挑战

通过对二十年来158篇经同行评议的ASCA应用研究进行系统综述，可以勾勒出该方法的应用全景并识别当前实践中的共性问题。

在应用领域上，ASCA应用主要集中在农业食品科学、生物科学和代谢组学，这与其在食品、农业、酿酒学以及生物医学等涉及多变量响应实验设计的领域高度契合。在化学、材料科学和环境科学中的应用则相对较少。

关于设计与因子分解实践，大多数ASCA应用涉及的实验因子数量有限，其中包含两个或三个因子的设计最为常见。值得注意的是，64%的研究明确将时间作为一个因子，但这并不一定意味着是纵向研究设计，时间通常被当作分类因子（如储存时长、加工阶段）处理。许多研究没有充分考虑或报告因子间的交互作用。此外，尽管许多研究明确报告了因子数量，但对样本量、实验单元类型和重复类型等关键设计要素的记录却远不够一致。在因子分解方法的选择上，绝大多数研究似乎使用了ASCA+变体，但并未明确报告，可能是因为其选用的软件工具默认实现了该变体。

在模型结果报告方面，约60%的文章使用解释方差（EV, %）来量化效应重要性，但近30%的研究没有提供任何效应量或方差划分的量化指标。一个常见的误区是将单个得分成分的EV报告为总方差的占比，这是不准确的，因为得分成分的EV仅反映与该因子相关的子空间内部结构，而非其对总体变异性的真实贡献。另外，有时会报告零残差，这通常表明实验设计不足以支持所选因子分解模型的复杂性，可能导致错误结论。

在验证实践上，绝大多数文章使用某种置换检验来验证ASCA模型，1000和10000次置换最为常见，但仍有21%的文章未进行或报告模型验证。有趣的是，置换次数与数据集大小的关系往往不合常理：更大的数据集通常使用更少的置换，而较小的数据集使用更多，这可能是出于计算时间的考虑。此外，虽然大多数文章报告了p值，但获得该值的方法（通过置换验证）主要取决于所选用的工具包，不同工具包的置换约束方式和交换规则可能不同，导致相同的数据集可能产生不同的p值。

在可视化实践上，54%的文章同时展示了SCA得分图和载荷图，这被认为是良好的实践，可以同时评估样本在降维空间中的结构以及驱动观测模式的变量。21%的文章仅展示得分图，8%仅展示载荷图，这都削弱了多变量分析的可解释性和可复现性。还有一部分文章尽管应用了ASCA，但既不报告得分图也不报告载荷图，通常仅将ASCA用作确认性或支持性工具（例如量化方差贡献），而未充分利用该方法的所有能力。对于残差，尽管有些研究报告了残差的方差部分，但很少有研究深入探索残差矩阵，而残差对于评估模型充分性至关重要。

在整体模型解读实践上，不同领域存在显著差异。在代谢组学等相关组学领域，ASCA更常被用作变量发现的工具，解读倾向于聚焦于载荷、杠杆值、预测误差平方和（SPE）或其他变量重要性指标，有时结合事后选择程序。相比之下，在许多其他应用（如食品科学、过程监控）中，ASCA主要用于理解实验设计引起的变异结构，解读首先关注哪些因子或交互作用是相关的、它们的贡献有多大，以及样本或因子水平在多变量空间中如何分组，得分图起着核心作用。

展望：迈向更稳健、可复现的ASCA研究

ASCA 已将方差分析的严谨性与潜变量模型的解释力相结合，成功应用于众多领域。然而，其力量也带来了挑战：ASCA 是一个包含一系列建模决策的工作流程，而非具有单一“正确”输出的算法。文献综述揭示了当前在实验设计报告、效应量量化、验证策略和残差解读等方面存在显著的不一致性。

因此，ASCA未来的发展不仅在于方法学创新，更在于方法学的素养和透明度。研究界已经拥有多种实现方式和不断增长的变体。目前参差不齐的是分析描述和论证的清晰度。当报告简略时，读者无法判断表象的“效应”是源于设计结构、预处理选择、非平衡抽样还是有效的置换方案。而当报告明确时，ASCA就成为连接多变量分析中数据、设计和解读的最透明的方法之一。

展望未来，ASA很可能将继续在实验设计与复杂信号交汇的领域保持核心地位：过程监控、组学、色谱、光谱和成像，以及任何交互作用和结构化变异性至关重要的领域。通过遵循本综述中强调的设计规范、效应量报告、验证和残差解读建议，研究者可以进行更稳健、可比较的ASCA研究，从而推动该方法在未来应用和方法学发展上发挥更大作用。

热点排行