AMD-Proj:自适应内存驱动的选择性梯度投影算法,用于文档理解中的持续学习
作者:Abdellatif Sassioui, Yasser Elouargui, Mohamed El Kamili, Rachid Benouini, El Mehdi Benyoussef, Meriyem Chergui 和 Mohammed Ouzzif
《Technologies》:AMD-Proj: Adaptive Memory-Driven Selective Gradient Projection for Continual Learning in Document Understanding
Abdellatif Sassioui,
Yasser Elouargui,
Mohamed El Kamili,
Rachid Benouini,
El Mehdi Benyoussef,
Meriyem Chergui and
Mohammed Ouzzif
【字体:
大
中
小
】
时间:2026年04月28日
来源:Technologies 3.6
编辑推荐:
摘要 视觉丰富的文档理解(VrDU)模型依赖于紧密耦合的文本、布局和视觉表示。在现实世界的应用中,这些模型必须随时间不断适应新的文档领域。然而,简单的顺序微调会导致严重的灾难性遗忘,因为参数是共享的,并且存在强烈的跨任务干扰。现有的持续学习方法要么限制参数
摘要 视觉丰富的文档理解(VrDU)模型依赖于紧密耦合的文本、布局和视觉表示。在现实世界的应用中,这些模型必须随时间不断适应新的文档领域。然而,简单的顺序微调会导致严重的灾难性遗忘,因为参数是共享的,并且存在强烈的跨任务干扰。现有的持续学习方法要么限制参数更新,要么保持输出分布的一致性,要么统一抑制与先前任务相关的梯度方向。尽管在有限的设置中有效,但这些策略无法在大型多模态transformer中平衡稳定性和可塑性。我们提出了AMD-Proj,一种基于自适应记忆的选择性梯度投影框架,用于文档理解中的持续学习。它使用特定的梯度子空间来建模任务知识,并根据这些梯度与记忆的对齐情况,有选择地阻断干扰方向,同时强化可重用的方向。一种高效的截断SVD机制和在线子空间合并确保了内存使用的有限性和对大型基于transformer的架构的可扩展性。我们在四个VrDU基准测试(FUNSD、SROIE、CORD和BuDDIE)上评估了AMD-Proj,使用LayoutLMv2和LayoutLMv3作为网络架构。结果显示,AMD-Proj减少了灾难性遗忘,并在基于F1的稳定性方面优于EWC、GPM、LwF、OWM、CUBER和参数效率高的微调方法。包括梯度谱分解和逐层重用与块动态在内的广泛机制分析,提供了关于选择性梯度投影如何在持续适应过程中控制优化几何形状的见解。这些发现确立了选择性梯度投影作为视觉丰富文档理解中持续学习的一种有原则且可解释的方法。
1. 引言
视觉丰富的文档(VrDs),如扫描表格、发票、收据、合同和财务报表,结合了文本内容、布局结构和视觉线索。最近的文档理解模型,包括LayoutLMv2、LayoutLMv3和基于图的架构,通过在基于大型transformer的表示中共同编码这些异构信号,取得了良好的性能[1]。尽管取得了成功,但这些模型通常是在使用静态数据集的离线环境中训练的,而许多现实世界的文档处理系统必须处于持续学习的状态中,随着时间的推移逐步适应新的文档类型和领域。
持续学习(CL)引入了灾难性遗忘的挑战[2],即将模型适应新任务会导致之前学习到的任务性能下降(图1)。在视觉丰富的文档理解中,这一挑战尤为明显。由于参数的广泛共享和表示层之间的紧密耦合,即使是中度的参数更新也会扭曲学到的布局和视觉抽象,从而导致早期文档领域的性能大幅下降。图1展示了灾难性遗忘的示意图。在任务2上的顺序优化将参数从任务1的最优状态移开,由于共享模型中的参数漂移而增加了任务1的损失。已经提出了多种持续学习方法来减轻遗忘。基于正则化的方法,如弹性权重整合(EWC)[3],识别重要的参数并惩罚对它们的更改,但依赖于对大型模型的扩展性较差的对角线近似。基于输出的方法,如不忘记学习(LwF)[4],通过使用早期模型作为教师来强制预测匹配,但它们并不直接调节发生跨任务干扰的内部表示。基于投影的方法,包括梯度投影记忆(GPM)[5],存储过去梯度的低秩子空间,并强制新的训练梯度与它们正交。虽然有效减少遗忘,但统一抑制所有过去的任务方向可能会过度限制优化,限制可塑性并阻止有益的知识转移。
在实践中,文档理解任务既具有共享结构,也具有特定于任务的变异性;例如,收据数据集具有共同的布局模式,这可能支持跨相关领域的积极知识转移。最近的基于投影的方法,如CUBER [6]和TRGP [7],通过显式建模任务相关性,超越了严格正交性:它们区分了干扰和转移的机制,并在逐层信任区域内通过缩放投影有选择地重用来自相关任务的冻结权重。虽然这代表了相对于统一抑制的重大进步,但这些方法主要在权重空间中操作,并在任务级别应用它们的重用决策,依赖于任务相似性的全局表征,而不是在每个训练步骤评估单个梯度方向。因此,它们没有显式建模或利用任务内、每步的梯度对齐变化。因为它们的行为受任务级别相似性估计的支配,所以它们的投影机制在整个任务中基本上是固定的,无法捕捉到梯度结构的细粒度、逐步变化。这一限制在视觉丰富的文档理解中尤为重要,因为文本、布局和视觉表示之间的紧密耦合导致梯度结构在层和小批量之间发生显著变化。这一观察激发了AMD-Proj的诞生,它通过在单个梯度方向级别而不是整个任务级别上操作来解决这一差距:它连续评估每个梯度组件与存储的子空间的对齐情况,减弱那些引起破坏性干扰的组件,同时强化那些编码可转移结构的组件,从而实现精细的、适应性的稳定性和可塑性平衡,这是任务级别投影方法无法提供的。
在这项工作中,我们提出了AMD-Proj,一种用于视觉丰富文档理解的持续学习框架,它明确区分了干扰和可重用的梯度方向。AMD-Proj使用紧凑的低秩梯度子空间来表示任务知识,并根据它们与先前学习到的子空间的即时对齐情况来适应性地调节传入的梯度。AMD-Proj减弱了与破坏性干扰相关的梯度组件,同时强化了与可重用结构对齐的组件。这种选择性调节使得在保持先前获得的知识的同时实现受控的适应。
我们在四个VrDU基准测试(FUNSD、SROIE、CORD和BuDDIE)上评估了AMD-Proj,使用LayoutLMv2和LayoutLMv3作为网络架构,在任务逐步学习设置中进行评估。实验结果表明,AMD-Proj减少了灾难性遗忘,并在基于F1的稳定性方面优于梯度投影记忆和在LayoutLMv2上的顺序微调,同时在更紧密集成的架构(如LayoutLMv3)上显示出更大的遗忘现象,其中纠缠的多模态梯度使得选择性投影更加具有挑战性,尽管由于更强壮的架构而实现了更高的绝对精度。除了综合性能指标外,我们还提供了基于梯度谱分解和逐层重用与块动态的机制分析,提供了选择性梯度投影如何塑造网络深度优化行为的可解释视图。
2. 相关工作
2.1. 持续学习范式
持续学习(CL),也称为终身学习,研究模型如何从一系列任务中获取知识,同时保持对先前学习任务的性能。CL中的一个核心挑战是灾难性遗忘[2],即新任务的更新会干扰早期学到的表示。现有的CL方法通常被分为五种范式[8]:基于正则化的方法、基于重放的方法、基于优化的方法、基于表示的方法和基于架构的方法。图2展示了持续学习方法的分类。
2.1.1. 基于正则化的方法
基于正则化的方法通过限制参数更新来保护先前学到的知识。弹性权重整合(EWC)[3]使用基于Fisher信息的近似来惩罚对过去任务重要的参数变化。突触智能(SI)[9]和记忆感知突触(MAS)[10]在训练期间类似地估计参数重要性,并限制未来的更新。
2.1.2. 基于重放的方法
基于重放的方法通过在训练期间连续向模型提供来自先前任务的数据样本来减轻遗忘。经验重放iCaRL [11]和ER [12]存储过去样本的子集,而生成重放DGR [13]使用生成模型合成伪样本。特征重放变体在潜在空间中操作以降低存储成本。尽管有强大的实证性能,但基于重放的方法会带来额外的内存和计算开销。在文档处理应用中,存储或重新生成敏感数据可能违反隐私或治理限制,而且对于大型多模态模型,重放会大幅增加训练成本。
2.1.3. 基于优化的方法
基于优化的方法显式修改训练动态以减少破坏性梯度干扰。GPM [5]从历史梯度构建低秩子空间,并强制当前梯度与这些子空间正交。相关方法探索了正交梯度约束或基于投影的更新,如OWM [14]、OGD [20]和AOP [21]。虽然有效防止遗忘,但随着任务数量的增加,严格的投影会越来越多地限制优化。将所有过去的任务方向统一处理忽略了可转移结构的存在,这在结构化领域(如视觉丰富的文档理解)中很常见。
最近的基于投影的持续学习方法通过显式建模任务相关性,超越了严格正交性。CUBER [6]和TRGP [7]通过将梯度投影到特定于任务的子空间上来表征任务相似性,并区分干扰和转移的机制。为了利用相关任务,这些方法在逐层信任区域内通过缩放权重投影重用选定旧任务的冻结权重,同时通过正交约束保持其他任务。尽管有效,但这些方法主要在权重空间中操作。最近的工作探索了大规模模型中的参数高效微调(PEFT)策略,包括语言和视觉-语言模型中的正交或低秩适配器(例如O-LoRA [22]、GORP [23]、SplitLoRA [24])。这些方法限制了参数空间中的更新,通常通过特定于任务的适配器。
更广泛地说,明确修改训练目标以在学习过程中抑制有害统计依赖性的策略超出了持续学习的范畴。在算法公平性方面的相关工作探索了概念上类似的公式,将不同的可微正则器嵌入到训练目标中,直接惩罚模型预测和敏感属性之间的不希望的统计关联[25]。虽然控制的特定依赖性有所不同,但塑形优化动态以减轻有害关联的原则在这些领域中是共同的。
2.1.4. 基于表示的方法
基于表示的CL方法旨在学习任务不变的或可转移的特征。自我监督学习和持续预训练试图稳定跨任务的表示。方法如LUMP [15]和MinRed [16]通过插值或去相关策略提高表示的鲁棒性,而其他方法依赖于特征蒸馏或对齐。
2.1.5. 基于架构的方法
基于架构的方法通过修改模型结构来减轻遗忘。参数分配策略为不同任务分配单独的参数Piggyback [17]、Packnet [18],而模块化网络和渐进式架构动态扩展容量PNN [19]。虽然提供了强大的任务隔离,但这些方法引入了架构复杂性。
2.1.6. 总结和定位
AMD-Proj属于基于优化的持续学习方法家族,同时结合了表示感知的见解。与之前统一抑制过去任务梯度方向的投影方法不同,AMD-Proj区分了干扰和可重用的组件,允许选择性地阻断和重用梯度。AMD-Proj不需要重放,并保留了原始模型架构。
2.2. 文档理解模型
2.2.1. 基于transformer的VrDU模型
LayoutLM [26]通过在微调阶段结合文本与布局嵌入和视觉特征来引入多模态预训练。LayoutLMv2 [27]通过基于ResNet的架构和跨模态注意力在预训练期间整合了视觉特征。LayoutLMv3 [28]在ViT架构中进一步统一了文本和图像掩蔽,提高了文档解析、关键信息提取和视觉问答的表示质量。
2.2.2. 基于图的文档模型
基于图的方法将文档建模为连接的标记和边的图。方法如LMGDoc [29]和Doc2Graph [30]将标记或文本块表示为通过布局感知的边连接的节点,实现了结构和空间推理。
2.3. VrDU中的持续学习
大多数CL方法是针对图像分类基准测试开发的。文档理解引入了额外的挑战,包括文本、布局和视觉的交互、结构化推理要求以及对空间对齐的敏感性。现有的CL方法没有明确保留VrDU性能所依赖的多模态融合层,这激发了需要针对这一领域定制的梯度级控制机制的需求。GPM等方法通过识别与过去任务相关的子空间,并强制新梯度与该子空间保持正交性来实现这一目标。AMD-Proj在该基础上引入了一种选择性和自适应的梯度调制机制。AMD-Proj不是平等对待所有过去的梯度方向,而是执行以下操作:(i)将任务知识模型化为一系列低维梯度子空间;(ii)评估当前梯度与每个存储子空间之间的对齐程度;(iii)根据这种对齐的强度不同地调节梯度。从高层次来看,AMD-Proj将当前梯度分解为三个部分:与过去任务高度对齐的方向(应被保护),中度对齐的方向(可以安全地重用来促进迁移),以及不相关的方向(保持不变)。通过柔和地减弱或增强这些部分,AMD-Proj在不强制严格正交性约束的情况下实现了稳定性和可塑性之间的可控权衡。图3提供了AMD-Proj框架的示意性概述。
3.2 问题定义与持续学习环境
我们在视觉丰富的文档理解(VrDU)的背景下研究持续学习,其中模型需要学习一系列文档分析任务,同时不 deductive 前面获取的知识。形式上,我们考虑一个由T个任务组成的序列。每个任务都与一个数据集相关联,其中 表示一个文档样本(包括文本、布局和视觉特征), 而 表示相应的结构化预测标签。我们采用任务增量学习(TIL)设置,其特征如下:
- 任务按顺序到达,一旦任务完成,之前任务的训练数据就无法访问。
- 不同任务之间的标签空间是不相交的。
- 在训练和推理时都知道任务的身份。
让 表示学习任务 后的模型,该模型由 参数化。在每个步骤 t,模型仅使用 来优化,同时旨在保持对所有以前见过任务的性能。因此,持续学习目标可以表示为:
(1)
3.3 梯度子空间建模
深度神经网络中的持续学习失败主要是由于破坏性的梯度干扰,新任务所需的参数更新会覆盖之前学习任务所必需的方向。为了明确地解释这种现象,我们通过历史梯度跨越的低维子空间来建模任务知识。梯度快照:
让 表示从任务的第i个小批量中计算出的第?层的梯度。对于每个任务,我们收集一组小的梯度快照并将它们堆叠成一个矩阵
(2)
为了提高数值稳定性,通过减去它们的平均值来对梯度进行居中处理。低秩子空间提取:
我们假设与任务相关的梯度位于一个低维流形上。因此,我们通过计算截断的奇异值分解(SVD)来提取一个紧凑的基:
(3) 保留的基向量数量 的选择是为了保留总能量的固定比例E:
(4) 结果矩阵 定义了捕获第?层任务主导梯度方向的正交基。
梯度子空间记忆和管理:
对于每个层?,我们维护一个累积了来自多个任务的梯度子空间的记忆:
(5) 为了确保存储空间有限,新提取的子空间使用基于投影的相似性度量与现有的子空间进行比较。高度相似的子空间通过QR重新正交化合并以保持正交性,而不相似的子空间则追加到每个层的固定预算内。如果超过预算,则丢弃较旧或效用较低的子空间。
3.4 带有重用和阻塞的自适应梯度投影(AMD-Proj)
基于第3.3节中介绍的梯度子空间公式,我们现在定义自适应梯度投影(AMD-Proj),这是一种用于在持续学习期间调节梯度更新的选择性投影机制。
基于相似性的子空间评分:
让 表示在当前任务训练期间计算出的第?层的梯度。给定子空间记忆,我们使用 范数来计算 与每个存储子空间 之间的对齐程度:
(6) 通过规范化梯度,我们确保关注的是几何方向而不是幅度。
重用和阻塞集合:
为了获得重用和阻塞这两个子空间集合,我们使用两个阈值 和
(7) 以及
(8) 其中 子空间中的方向对应于高度对齐的方向,而 子空间中的方向对应于中度对齐的方向。为了限制计算开销,我们只在每个集合中保留前k个子空间。
将梯度方向分类为阻塞、重用和中性集合由两个设计选择决定:对齐得分和硬阈值的使用。
对齐得分:方程(6)中定义的得分衡量了 规范化梯度中有多少位于第j个存储子空间基的列空间内。因为基向量是正交的,这个量等于 接向该子空间的投影的范数,并且其取值范围是:1表示完全对齐,而0表示正交。规范化梯度确保分类完全依赖于几何方向而不是幅度,后者在不同层和训练步骤中可能会有显著变化。这种解耦是必要的:一个与过去任务子空间正交的大幅度梯度不应被抑制,而一个幅度小但高度对齐的梯度也不应未经修改地通过。因为 是规范化的,这个得分也等同于子空间基上的聚合余弦相似度,同时与正交投影算子直接兼容。
硬阈值与软门控:一个自然的替代方案是使用软门控函数(例如,应用于 的Sigmoid函数)。我们之所以采用硬阈值,有三个原因。首先,它们产生离散且易于解释的分配,具有明确的几何意义,使得投影算子 和 明确定义。其次,软门控会引入通过分类机制本身的梯度流动,创建一个额外的、持续变化的控制信号,这可能会破坏训练动态。第三,第4.9节中报告的消融结果显示,AMD-Proj对 和 的适度变化具有鲁棒性,表明不需要精确校准,并且实际上硬阈值不会引入脆弱性。
阈值排序:约束 确保阻塞和重用集合是不相交的,并且存在一个中性区域,在该区域梯度分量保持不变。对齐度低的方向编码了新的、特定于任务的信息,应该被保留以保持可塑性。结果的三部分划分——阻塞、重用和中性——反映了当前梯度与存储知识之间的不同几何关系,每种情况都需要不同的处理。
投影器的相互正交性:方程(9)和(10)中的构造,在正交化之前将重用子空间相对于阻塞投影器进行“放气”,确保
(9) 这确保了阻塞和重用作用于梯度的不相交子空间。如果没有这个属性,一个方向可能会同时受到减弱和增强,导致更新不明确和不稳定。这种“放气”步骤通过设计消除了这种可能性。
正交化投影算子:
为了防止投影重叠和不可控的梯度放大,重用方向被限制位于阻塞子空间的正交补空间内。我们首先为阻塞子空间构建一个正交基:
(10) 然后将重用子空间相对于 进行“放气”后再进行正交化:
(11) 这种构造确保了阻塞和重用投影器是相互正交的。
自适应梯度调制:
应用于第?层的梯度定义为:
(12) 其中
这种更新减少了与阻塞方向对齐的梯度分量的影响,并增强了与可重用方向对齐的分量,从而在不强制严格正交性的情况下实现了稳定性和可塑性之间的可控权衡。完整的训练过程在算法1中总结。
算法1 带有自适应梯度投影(AMD-Proj)的持续学习
要求:
- 任务序列 ,模型 ,学习率
确保:
- 持续训练的模型参数
4. 结果
4.1 实验设置
4.1.1 数据集和任务定义
我们在一系列广泛使用的VrDU基准测试上评估我们的方法,每个基准测试代表一种不同的文档类型和语义结构。在我们的持续学习设置中,每个数据集被视为一个单独的任务,并且任务是顺序学习的,无法访问之前任务的数据。
FUNSD [31] 是一个包含扫描表格的形式理解数据集,表格附带了诸如问题、答案、标题等语义标签,它包含199份文档,分为50份用于测试和149份用于训练。
SROIE [32] 包含用于提取收据信息的扫描收据,目标是最识别和分类实体,如公司名称、地址、日期和总金额。它分为626个训练样本和347个测试样本。
CORD [33] 包含1000张带有细粒度语义注释的印度尼西亚收据图像,包括菜单项和总金额等关键字段。CORD分为800个训练样本、100个测试样本和100个验证样本。
BuDDIE [34] 是一个包含多种文档类型的商业文档数据集,如定期报告、修订文档等。它包含1172份训练样本、161份验证样本和332份测试样本。
遵循持续学习的标准实践,每个数据集定义了一个具有不相交标签空间的单独任务。模型在任务上顺序训练,并在学习每个新任务后在所有之前见过的任务上进行评估。
除非另有说明,我们采用以下默认的任务顺序:
为了评估鲁棒性,我们在第4.8节进一步分析了不同任务顺序的影响。
我们考虑一个任务增量学习设置,其中每个数据集构成一个具有不相交标签空间的单独任务。
4.1.2 模型和架构
为了评估我们方法在不同多模态学习范式中的通用性,我们在两种最先进的文档理解架构上进行了实验。
LayoutLMv2 是一个预训练的多模态Transformer,它联合建模文本内容、二维布局信息和从文档图像中提取的视觉特征。它已被广泛采纳作为视觉丰富文档理解任务的强大基线,并作为早期多模态文档Transformer的代表。
LayoutLMv3 通过更紧密集成的视觉-语言预训练策略扩展了这一范式,在单个Transformer架构中统一了文本和图像补丁嵌入。其增加的深度和容量使其成为持续学习环境中更强但也更具挑战性的骨干。
4.1.3 评估指标
为了评估AMD-Proj,我们使用以下指标:
平均准确率(ACC):衡量所有任务的平均性能。
向后迁移(BWT):评估学习第k个任务对所有旧任务的平均影响。除了基于准确率的指标外,我们还报告了基于F1的ACC和BWT的对应指标。
由于文档理解任务中的类别不平衡,我们同时报告基于准确率和基于F1的指标。计算环境
所有实验都在一台配备了NVIDIA RTX 4070 GPU(8 GB VRAM)的工作站上完成。模型使用PyTorch 2.6实现,并通过混合精度进行训练以减少内存消耗。由于GPU内存限制,所有实验的批量大小均为1。未使用多GPU训练或分布式优化。
4.2.2. 优化和训练协议
对于所有持续学习方法,我们使用AdamW优化器,学习率为0.0001。每个任务训练三个周期后才会进入下一个任务。为了稳定训练,应用了最大范数为1.0的梯度范数剪辑。任务完成后,其训练数据将被丢弃且不再重复使用,这符合任务递增学习的设置。
4.2.3. AMD-Proj超参数
所提出的AMD-Proj方法使用以下超参数配置,除非另有说明,否则在所有实验中保持不变:
- 子空间构建的能量阈值:
- 重用相似性阈值:
- 块化相似性阈值:
- 块化强度:
- 重用强度:
- 最大的前k个重用子空间:
- 最大的前k个被块化的子空间:
通过完成每个任务后从多达六个小批量中采样梯度来构建梯度子空间。为了确保数值稳定性和有限的内存使用,可以在奇异值分解之前选择性地对梯度向量进行下采样。
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种不同的持续学习基线方法进行比较,这些方法代表了减轻灾难性遗忘的不同策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
- 无遗忘学习(LwF):LwF使用在前一个任务上训练的模型的逻辑斯蒂级蒸馏来实现。由于任务与不相交的标签空间相关联,蒸馏是针对头部特定的进行的:对于每个先前的学习任务,使用相同的任务特定输出头部计算学生和教师的逻辑斯蒂值,以确保输出维度匹配。蒸馏在token级别应用,并通过掩码限制在有效文本token上,防止对任务无关标签的监督。我们使用以下标准配置:
- 蒸馏温度:
- 蒸馏权重:
- 损失函数:
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
- 无遗忘学习(LwF):LwF使用在前一个任务上训练的模型的逻辑斯蒂级蒸馏来实现。由于任务与不相交的标签空间相关联,蒸馏是针对头部特定的进行的:对于每个先前的学习任务,使用相同的任务特定输出头部计算学生和教师的逻辑斯蒂值,以确保输出维度匹配。蒸馏在token级别应用,并通过掩码限制在有效文本token上,防止对任务无关标签的监督。我们使用以下标准配置:
- 蒸馏温度:
- 蒸馏权重:
- 损失函数:
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
- 无遗忘学习(LwF):LwF使用在前一个任务上训练的模型的逻辑斯蒂级蒸馏来实现。由于任务与不相交的标签空间相关联,蒸馏是针对头部特定的进行的:对于每个先前的学习任务,使用相同的任务特定输出头部计算学生和教师的逻辑斯蒂值,以确保输出维度匹配。蒸馏在token级别应用,并通过掩码限制在有效文本token上,防止对任务无关标签的监督。我们使用以下标准配置:
- 蒸馏温度:
- 蒸馏权重:
- 损失函数:
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
- 无遗忘学习(LwF):LwF使用在前一个任务上训练的模型的逻辑斯蒂级蒸馏来实现。由于任务与不相交的标签空间相关联,蒸馏是针对头部特定的进行的:对于每个先前的学习任务,使用相同的任务特定输出头部计算学生和教师的逻辑斯蒂值,以确保输出维度匹配。蒸馏在token级别应用,并通过掩码限制在有效文本token上,防止对任务无关标签的监督。我们使用以下标准配置:
- 蒸馏温度:
- 蒸馏权重:
- 损失函数:
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正则化强度设置为固定值,以平衡稳定性和可塑性。在所有实验中,我们使用:
- Fisher矩阵:对角近似
- 正则化系数:
- Fisher估计:在任务验证集上计算
4.2.4. 基线超参数和配置
我们将AMD-Proj与几种已建立的持续学习基线方法进行比较,这些方法代表了不同的减轻灾难性遗忘的策略。为了可复现性,我们报告了每种持续学习基线方法使用的关键超参数。所有方法都使用相同的优化器、学习率和批量大小,如上所述。
- 顺序微调(SeqFT):在每个任务上依次训练模型,不采用任何显式的遗忘缓解措施,作为下限基线。
- 弹性权重巩固(EWC):EWC使用在每个任务完成后估计的对角Fisher信息矩阵来实现。正评估的任务顺序定义如下:
顺序A:SROIE → FUNSD → CORD → BuDDIE,对应于以前实验中使用的默认任务顺序。
顺序B:FUNSD → SROIE → CORD → BuDDIE,通过交换两个早期任务来改变初始的适应动态。
顺序C:BuDDIE → CORD → FUNSD → SROIE,表示一个相反的顺序。
表5显示了任务顺序对使用AMD-Proj进行持续学习性能的影响。所有实验都使用相同的超参数、优化设置和评估协议进行。这确保了任何观察到的性能差异都可以归因于任务排序效应,而不是混淆的实验因素。
表5. 任务顺序对使用AMD-Proj进行持续学习性能的影响。我们报告了平均准确率(ACC)、后向迁移(BWT)及其基于F1的对应指标在LayoutLMv3上的表现。顺序A显示出最低的负后向迁移,表明之前学习到的任务保留得最好,但整体准确率较低。相比之下,顺序B以增加遗忘为代价获得了最高的ACC和F1-ACC,而顺序C显示出中等准确率和最大的后向迁移下降。
总体而言,AMD-Proj在不同的任务顺序下表现出一致且平稳的性能表现。虽然任务排序影响了保留和适应之间的平衡,但性能逐渐下降而不是灾难性下降,表明其在不同的持续学习条件下的鲁棒性。
4.9. 深入研究
为了分析所提出机制的必要性和AMD-Proj对超参数选择的鲁棒性,我们进行了两项互补的深入研究。首先,我们通过选择性禁用梯度重用或阻止来进行功能上的深入研究。其次,我们分析了AMD-Proj对其主要超参数的敏感性。
4.9.1. 梯度重用和阻止的功能性深入研究
表6报告了在AMD-Proj中禁用梯度重用或阻止的影响。完整的方法在稳定性和可塑性之间达到了最佳平衡,表现出最小的遗忘和最高的基于F1的性能。
表6. 关于AMD-Proj中梯度重用和阻止影响的深入研究。结果使用基于准确率和基于F1的持续学习指标在LayoutLMv2上报告。禁用重用()会降低后向迁移和F1准确率,表明仅削弱梯度会过度限制优化并阻止跨文档领域的有效知识转移。同样,禁用阻止()会导致严重的遗忘,因为放大的可重用方向不足以抵消具有破坏性的任务特定梯度。这些结果证实了重用和阻止都是必要的,并且起着互补的作用。
4.9.2. 超参数敏感性
我们在表7中探讨了AMD-Proj对其超参数的响应。在所有设置中,BWT的变化不大或没有巨大下降,这表明该方法不依赖于精细调整的参数值。改变重用和阻止的阈值对遗忘的影响较小,显示出鲁棒的子空间选择。能量阈值E的影响更为明显,较低的值会导致更积极的正则化并增加遗忘,而较高的值则在稳定性和灵活性之间提供了更好的平衡。最后,增加保留的子空间数量并没有带来边际效益,验证了默认顶级设置的效率。
5. 讨论
除了实证性能之外,这些结果还提供了关于梯度级控制如何在持续学习环境中与VrDU模型交互的见解。
首先,结果表明,明确建模梯度干扰和重用是减轻灾难性遗忘的有效机制。在如LayoutLMv2这样的架构中,选择性梯度投影能够在不过度限制优化的情况下实现稳定的适应,这证明了梯度几何结构在文档理解模型持续学习中的重要性。虽然AMD-Proj依赖于这样一个假设,即主要与任务相关的梯度可以通过低秩子空间捕获,但这一假设得到了梯度更新观测到的谱结构的实证支持。然而,在非常大的模型中,梯度结构可能会偏离严格的低秩行为,这是基于子空间的方法的自然限制。
其次,跨架构的比较表明,梯度子空间控制的有效性取决于模型的架构集成程度。集成更紧密的骨干网络(如LayoutLMv3)由于选择阻止和重用梯度的难度更大,因此表现出更大的遗忘。
第三,机制分析提供了AMD-Proj内部运作方式的可解释性。谱分析表明,在AMD-Proj下,参数更新集中在一组主导方向上。同时,重用-阻止动态揭示了一种与模型层次结构相一致的策略:早期层倾向于保守更新以保留共享的低层表示,中间层利用可重用结构进行正面迁移,而后期层强调保护任务特定的语义。这种行为为AMD-Proj如何在模型深度上平衡稳定性和可塑性提供了具体的几何解释。
第四,任务顺序敏感性分析表明,AMD-Proj是鲁棒的但不是顺序不变的。跨任务序列的性能变化遵循与任务相似性和可用可重用梯度方向相关的可预测趋势,在不利排序下的性能下降仍然较小而不是灾难性的,表明其适应是可控的,而不是对特定任务序列的脆弱依赖。这种行为与AMD-Proj的设计一致,其中重用和阻止是由梯度相似性控制的。
最后,有几个实际考虑因素值得讨论。尽管由于文档理解模型的高内存需求,训练是以批量大小为一进行的,但梯度子空间是从多个梯度快照中估计出来的,实际上产生了稳定的低秩结构。此外,虽然AMD-Proj使用固定的相似性阈值,但在极端任务相似性或不同情况下,自适应或数据驱动的阈值策略可能会进一步提高鲁棒性,并为未来的工作提供了一个有趣的方向。扩展到类递增和域递增设置,以及在敏感应用中处理存储的梯度子空间的隐私意识仍然是进一步研究的重要途径。
总体而言,这些发现强调了在视觉丰富的文档理解中显式梯度级控制的价值。通过以层感知和相似性驱动的方式平衡重用和保护,AMD-Proj为复杂多模态模型中的持续适应提供了一种原则性和可解释的方法。
虽然AMD-Proj在评估的基准测试中展示了在稳定性和可塑性权衡方面的一致性改进,但仍应承认几个限制。
模态纠缠敏感性:AMD-Proj依赖于存储基所跨越的子空间内干扰方向和可重用方向的几何可分性。在如LayoutLMv3这样的高度集成架构中,这种假设会减弱,因为在这些架构中文本、布局和视觉标记是共同处理的,导致梯度信号变得纠缠,从而降低了可分性,正如AMD-Proj在LayoutLMv3上的后向迁移更负相比LayoutLMv2更为明显。注意,AMD-Proj在LayoutLMv3上的更高绝对准确率反映了该骨干网络的更强表示能力,而不是改进的遗忘控制。例如,通过为每层中的文本和视觉梯度组件维护单独的基,结合模态感知的子空间跟踪是一个解决这一限制的有希望的方向。
阈值敏感性:梯度方向的分类依赖于两个阈值。尽管表5显示了对适度变化的鲁棒性,但这些参数是手动设置的,可能需要在不同架构和任务分布之间进行调整。随着子空间的成熟,自适应阈值调度(如退火)可以减少这种依赖性。
任务排序敏感性:由于AMD-Proj逐步累积子空间而不重新访问过去的数据,早期任务会对学习到的基础产生不成比例的影响。在不利的任务排序下,这可能导致后续任务的投影空间过于受限。开发排序鲁棒的初始化或重新平衡策略是未来工作的一个重要方向。
完整骨干需求:AMD-Proj在全面的微调过程中通过梯度级约束进行操作,与冻结骨干的PEFT制度不直接兼容。如表4所示,PEFT方法在降低性能的代价下提供了显著更低的内存使用。将AMD-Proj扩展到在适配器级别梯度上运行将提高其在内存受限环境中的适用性。
低秩子空间近似:该方法假设与任务相关的梯度结构可以通过低秩子空间捕获。在非常高质量的模型或高度异构的任务分布中,这一假设可能会失效,因为重要的方向不能通过紧凑的基很好地表示。
扩展到更长的任务序列:尽管存储限制与任务数量无关,但这仅在四任务基准上得到了验证。随着任务数量和多样性的增加,子空间合并是否仍然能产生紧凑和信息丰富的表示仍然是一个未解决的问题。
6. 结论
在本文中,我们介绍了AMD-Proj,这是一个用于视觉丰富文档理解的持续学习框架,通过选择性重用和阻止来调节梯度更新。通过在子空间级别对梯度干扰和转移进行建模,AMD-Proj在减轻灾难性遗忘的同时保留了适应新文档域的能力。在FUNSD、SROIE、CORD和BuDDIE上的实验表明,AMD-Proj在基于梯度和基于正则化的基线上一致地提高了知识保留,同时保持了有竞争力的预测性能。该方法适用于包括LayoutLMv2和LayoutLMv3在内的最先进的文档理解架构,并在不同任务排序下表现出稳定的行为。此外,所提出的机制分析提供了选择性梯度投影如何塑造网络深度适应的可解释视图。
总体而言,这项工作突出了在多模态和结构化文档设置中显式梯度级控制的重要性。未来的工作将探索自适应内存管理、任务相似性的自动估计,以及扩展到更具有挑战性的持续学习场景,如类递增和流式设置。我们还计划研究将AMD-Proj与参数高效的微调技术相结合,并将其应用于超出文档理解的更广泛的多模态持续学习问题。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号