OMPT:单阶段多提示迁移学习

《Neurocomputing》:OMPT:One-stage multiple prompts transfer learning

【字体: 时间:2026年05月29日 来源:Neurocomputing 6.5

编辑推荐:

  作者:杨洋宇(Yangyang Yu)、王克鲁(Keru Wang)、张莫汉(Mohan Zhang) 中国河南省三门峡市学府街三门峡职业技术学院 摘要 参数高效方法(如提示方法或适配器方法)的成功在于它们更新的参数数量远少于微调方法。然而,这些方法的性能仍低于微调方法。为了

  
作者:杨洋宇(Yangyang Yu)、王克鲁(Keru Wang)、张莫汉(Mohan Zhang)
中国河南省三门峡市学府街三门峡职业技术学院

摘要

参数高效方法(如提示方法或适配器方法)的成功在于它们更新的参数数量远少于微调方法。然而,这些方法的性能仍低于微调方法。为了通过跨任务共享知识来提升参数高效方法的能力,人们采用了迁移学习技术。通常,结合参数高效方法和迁移学习的迁移方法需要训练两次:首先将任务编码为提示或适配器,然后再在提示或适配器之间传递知识。尽管参数高效迁移方法在性能上显著优于单一训练的参数高效方法,但它们的参数数量至少是后者的两倍。在本文中,我们提出了一种称为OMPT(One-stage Multiple Prompts Transfer)的一阶段多提示迁移方法。对于一个任务,OMPT能够在一次训练中同时学习一个仅用于编码任务本身知识的编码提示和一个能够吸收其他任务知识的迁移提示。实验结果表明,OMPT方法在参数数量仅增加约27%的情况下,显著提高了提示方法的准确性,这一增幅远低于现有的迁移方法SPoT(100%)和ATTEMPT(133%)。与需要两阶段训练的SPoT和ATTEMPT方法相比,我们的OMPT方法更加自动化,训练参数更少,推理速度更快。

引言

微调方法是自然语言处理(NLP)领域最优秀的方法之一。通过在包含数十亿参数的预训练语言模型(PLM)上进行训练,可以更新PLM中的所有参数。尽管微调方法能够达到最先进的性能,但修改这些参数的成本非常高昂[3]、[5]、[21]、[28]、[47]、[54]。
最近,人们提出了参数高效方法来减少训练参数的数量。具体来说,这些方法保持PLM不变,仅在训练过程中为特定任务学习少量参数[4]、[11]、[14]、[20]、[33]、[49]。主要有两种参数高效方法:提示方法(prompt methods)和适配器方法(adapter methods)。
提示方法将一些提示词插入到任务中。在训练过程中,只有这些提示参数会被修改,而PLM保持不变[9]、[24]、[26]、[50]。提示参数的数量远少于PLM的参数数量。由于在训练任务时仅修改提示部分,因此任务的知识被编码到提示中,提示被视为任务的表示形式[43]。
适配器方法是一种替代的参数高效方法。与修改训练任务的提示方法不同,适配器方法保持任务不变,并在PLM的每个中间层添加少量额外的参数(称为适配器)[14]、[17]、[36]。在训练过程中,只有这些适配器参数会被修改,原始PLM保持不变。与微调方法相比,适配器方法的参数数量大幅减少。同样,任务的知识也被编码到适配器中。
不幸的是,无论是提示方法还是适配器方法,其性能都低于微调方法。
最近,人们利用迁移学习[1]、[18]、[25]、[34]通过在一系列任务之间共享知识来增强参数高效方法的能力。参数高效方法保持了较低的训练成本,同时迁移学习能够跨任务传递知识以提高每个任务的准确性。将这两种技术的优势结合起来是一个自然且关键的选择。我们将这种结合参数高效方法和迁移学习的方法称为参数高效迁移方法[12]、[14]。
提示迁移方法首先为任务学习一个单独的提示,然后将存储在该提示中的知识转移到其他提示中[2]、[23]、[43]。类似地,AdapterFusion[32]是一种结合适配器方法和迁移学习的方法,它首先为任务单独学习一个适配器,然后在一系列适配器之间共享知识。
这些参数高效迁移方法需要训练两次。虽然它们的性能远超单一训练的参数高效方法,但它们的参数数量至少是后者的两倍。
在本文中,我们提出了一种称为OMPT的一阶段多提示迁移方法,这种新方法仅需一次训练即可实现知识迁移。如图1所示,OMPT方法中的任务提示包括一个编码提示和一个迁移提示。编码提示仅用于编码任务本身的知识,而迁移提示是多个编码提示的注意力加权总和,旨在吸收其他任务的知识。OMPT在一次训练中同时获取编码提示和迁移提示。与提示方法的主要区别在于,OMPT添加了一个额外的迁移提示,可以利用其他任务的知识来辅助任务。与需要两次训练的现有提示迁移方法不同,OMPT仅通过一次训练即可获得编码提示和迁移提示。
我们在多个混合NLP任务集上评估了OMPT的性能。在所有情况下,OMPT的性能都大幅优于提示方法,但其参数数量仅增加了27%,远低于现有的提示迁移方法(如SPoT或ATTEMPT)。与需要两阶段训练的SPoT方法相比,我们的OMPT更加自动化,训练参数更少,推理速度更快。

章节片段

背景

在本节中,我们总结了NLP任务中常用的提示方法和提示迁移方法。提示迁移方法可以分为手动提示迁移和自动提示迁移。

方法

在本节中,我们将详细介绍我们的OMPT方法(如图4所示)。OMPT中的任务提示包括一个仅用于学习任务本身知识的编码提示(第3.1.1节)和一个利用其他任务知识的迁移提示(第3.1.2节)。OMPT通过一次训练同时学习编码提示和迁移提示,具体过程在第3.2节中介绍。

实验

我们创建了两个混合任务集作为基准,以评估OMPT方法的性能(第4.1节)。我们在第4.2节提供了OMPT的详细设置。第4.3节介绍了4种作为基线方法的先前方法。所有实验都在小样本设置下进行。我们使用RoBERTa-base [28]作为所有方法的底层模型。

结果

我们展示了详细的结果。
(1)如表1所示,OMPT方法在所有任务上的性能均显著优于提示方法:在Yelp-2、SST-2和Movie Reviews任务上分别提高了5.3%、5.3%和4.8%;在IMDB、Amazon-2和MPAQ任务上分别提高了3.2%、1.7%和2.5%。重要的是,OMPT方法仅增加了相对27%的参数数量,远低于SPoT方法(相对增加了100%)。

分析

在本节中,我们对任务集A和任务集B进行了消融研究,每个任务使用相同的训练数据来揭示OMPT方法的优势。在不同设置下,我们进行了3次实验,首先计算每次实验在任务集上的平均性能,最后报告3次实验的平均性能和方差。

提示系列方法

提示方法是重要的参数高效方法之一。提示可以分为包含多个可解释自然语言词元的硬提示[7]、[16]、[39],以及通过训练NLP任务学习到的不可解释词元的软提示[24]、[27]。由于软提示的性能远优于硬提示,因此在PLM时代软提示成为了主流。我们的工作基于软提示,几乎所有现有的提示方法都是如此。

结论

我们提出了一种称为OMPT的一阶段多提示迁移方法。对于一个任务,我们的OMPT方法除了学习任务本身的知识的编码提示外,还添加了一个利用其他任务知识的迁移提示。OMPT方法的主要优势在于只需一次训练即可同时获得编码提示和迁移提示。我们在多个任务集上测试了OMPT方法,其性能在所有任务上均显著优于提示方法。

CRediT作者贡献声明

杨洋宇(Yangyang Yu): 负责软件、方法论、形式分析、数据整理和概念化工作。王克鲁(Keru Wang): 负责写作——审稿与编辑、初稿撰写。张莫汉(Mohan Zhang): 负责写作——审稿与编辑、初稿撰写、可视化工作。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
杨洋宇于2016年获得兰州大学计算机科学与技术硕士学位。他目前在三门峡职业技术学院和应用工程学院担任助理教师。他的研究方向包括参数高效调整方法和迁移学习。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号