《Computer Science Review》:The evolution of natural language processing: How prompt optimization and language models are shaping the future
编辑推荐:
这篇综述为读者系统梳理了提示优化(Prompt Optimization)这一快速发展的新兴领域。作者指出,大语言模型(LLMs)虽在诸多自然语言处理(NLP)任务中表现卓越,但其训练与微调(Fine-tuning)成本高昂,且性能严重依赖于输入提示(Prompt)的质量。为了弥合现有综述的空白,本文对45种提示优化策略进行了全面的方法论审查,并将其基于底层工作原理归类为11个不同的范式(如基于梯度的、单层/多层软提示、强化学习、进化算法、上下文学习等),深入分析了其内在机制、应用场景与优劣势。文章进一步综述了这些策略在九大类NLP任务(如分类、问答、推理等)中的应用情况,并基于大量预训练模型和基准数据集评估了其性能。该工作为未来在一致实验设置下比较和评估基于LLM的预测管道奠定了坚实基础,旨在集中分散的策略知识,以促进跨未探索任务开发创新的预测器。
自然语言处理的范式转移:大语言模型时代
近年来,大语言模型(Large Language Models, LLMs)的出现标志着自然语言处理(Natural Language Processing, NLP)领域的一次范式转移。这些模型通过在海量无标注文本上进行预训练(Pre-training),学习了通用的语言模式和语义关系,从而能够为代码生成、机器翻译、风格迁移、序列分析和需求工程等复杂语言任务提供开创性的解决方案。然而,这一卓越成就伴随着显著的代价。LLMs的两阶段训练过程——预训练和微调(Fine-tuning),需要巨大的计算资源、海量数据集和极长的时间框架。例如,众所周知的BERT模型预训练需要16个Google TPU持续工作4天,而Megatron-Turing NLG 530B模型的预训练则动用了2000个NVIDIA A100 GPU连续运行9.2天。除了经济成本,LLM训练所产生的环境影响也引发了人们对当前发展模式可持续性的严重关切。研究表明,训练单个LLM产生的碳排放(约60万磅CO2)相当于125次纽约与北京之间的往返航班。
提示优化的兴起:解锁模型潜力的新钥匙
为了缓解LLMs的计算限制,自2021年起,基于提示的LLMs(如GPT-Neo, OPT, Flan-T5)作为高效的替代方案出现。这些模型通过输入指令(即提示,Prompt)来引导模型执行特定任务,从而灵活利用预训练LLMs中编码的巨量知识,无需大量重新训练。然而,模型的性能高度依赖于输入提示的质量。一个精心设计的提示可以极大改善模型输出,而一个构建不佳的提示则会严重损害模型性能。这种由提示质量导致的巨大性能差异,促使提示优化(Prompt Optimization)演变为一个独立的研究领域,专注于通过技术来精心设计提示以获得最佳性能。
提示优化不仅具有技术重要性,其实际相关性在工程、科学和社会领域也日益显著。精心设计的提示已被证明能有效增强模型稳定性、解决偏见并减少幻觉输出,从而提升LLMs的性能和可信度。在工程领域,提示优化正从次要领域演变为核心技术。例如,优化的提示有助于有效的需求工程,将模糊的利益相关者想法转化为复杂的软件;领域特定的提示已被用于优化家电调度以降低能源成本。方法论综述一致认为,系统性的提示优化对于释放LLMs的全部潜力至关重要。非结构化的提示设计往往产生不一致的结果,而系统性的提示设计、评估协议和迭代优化则能提高可靠性、效率和跨领域适用性。这些研究表明,提示工程应被形式化为一个主要的方法论组件,类似于传统机器学习中的特征工程(Feature Engineering),以提供可重用的模式、文档标准和实证测试程序,支持可复现的、领域特定的LLM应用。
提示优化策略全景:十一大方法论范式
为了全面理解用于提示优化的多样化策略,本文对现有方法进行了结构化综述。基于其底层的优化技术,提示优化策略可被分为11种不同的类型,体现了连续提示嵌入(软提示,Soft Prompts)和离散提示文本(硬提示,Hard Prompts)之间的方法论区别。
- •
基于梯度的方法:如AutoPrompt(2020)和FluentPrompt(2023),利用输入令牌的文本梯度来优化离散文本提示,而无需更改模型参数。
- •
单层方法:在预训练模型的输入层插入可学习的提示表示,例如Prompt-Tuning(2021)、P-Tuning、Black-Box Tuning(BBT)、高效联邦黑盒提示调优(FedBPT)、解耦提示调优(DEPT)和低秩提示调优(LoPT)。
- •
多层方法:与模型内部多个层级的隐藏状态进行交互,实现更强大的任务特定模式适应,如PrefixTuning(2021)、P-Tuning v2和Black-Box Tuning v2(BBTv2)。
- •
可解释方法:旨在使提示的效果对人类可解释,例如Waywardness和DiscreteV,它们侧重于透明度和可解释性。
- •
强化学习方法:将提示生成视为可训练的策略,通过与LLMs交互获得反馈来优化提示,包括RLPrompt、黑盒离散提示学习(BDPL)、测试时提示编辑与强化学习(TEMPERA)、模型自适应提示优化器(MAPO)、提示重写器(PRewriter)、StablePRompt、PromptOIRL和PROMPT-AGENT。
- •
枚举方法:通过直接生成和评估多样化的离散提示集合来探索提示空间,代表方法是GRIPS。
- •
进化方法:从生物概念(如变异、交叉和自然选择)中汲取灵感,迭代改进提示,包括CLAPS、PROMPTBREEDER、EvoPrompt、LongPrompt和语言模型进化算法(LMEA)。
- •
上下文学习方法:通过改进提示中示例的选择或表述来提升模型的任务性能,代表方法有EPR、Active Example、Auto-CoT、Automate-CoT、提示增强(Prompt-Boosting)、混合提示(MOP)、EASE和Adv-ICL。
- •
LLM驱动方法:利用LLMs的内在能力生成、优化和评估提示,例如ProTeGi、自动提示工程师(APE)、通过提示进行优化(OPRO)、PE2、自动行为优化(ABO)和随机提示(Random Prompt)。
- •
人-LLM协作方法:结合人类专业知识和反馈来优化提示,代表方法是贝叶斯提示优化(BPO)。
- •
贝叶斯优化方法:使用贝叶斯优化来识别最优提示配置,例如Prompt-BO和InstructZero。
对这些范式的比较分析揭示了一系列权衡关系。例如,基于模型内部访问的方法(如软提示和基于梯度的方法)通常可解释性和可迁移性较低,而黑盒范式则在可解释性和模型间可移植性方面表现更好。同样,在查询成本和零样本能力、人力参与与数据/计算需求、稳定性与探索灵活性、以及实现复杂性与控制程度之间也存在明显的折衷。这些权衡强调了根据系统约束、访问限制和应用特定需求来选择合适范式的重要性。
评估舞台:九大NLP任务
为了评估不同提示优化策略的有效性,研究者们在多种自然语言处理任务上进行了测试。本文重点阐述了九类关键的NLP任务:
- 1.
分类:包括二元分类(如假新闻检测、共指消解、仇恨言论检测)、多类分类(如主题分类)以及情感分析等。
- 2.
问答:处理并理解输入问题,从知识源检索相关信息以形成适当回答。
- 3.
自然语言推理:确定两个句子(前提和假设)之间的逻辑关系(蕴含、矛盾或中性)。
- 4.
自然语言生成:从结构化数据或其他输入生成语法正确、人类可读的描述,如文本摘要、机器翻译。
- 5.
语义相似性检测:计算两个输入对(如句子、问题)之间的语义相似程度,应用于抄袭检测、重复检测等。
- 6.
信息抽取:从非结构化或半结构化源中自动提取特定信息片段,如实体和关系。
- 7.
信息检索:从海量数据集合中定位和提取与用户查询相关的信息。
- 8.
语言和语义理解:在上下文中解释语言的含义,分析短语和句子的实际意义。
- 9.
基于推理的任务:根据可用描述、知识或逻辑得出结论,包括常识推理、符号推理、逻辑推理、时序推理、空间与几何推理以及数值与算术推理。
性能纵览:策略、任务与模型的交叉分析
本文对45种不同的提示优化策略在9类NLP任务、各种预训练模型和基准数据集上的应用及性能进行了全面分析。以分类任务为例,表格详细列出了不同策略(如ProTeGi, Prompt-Tuning, P-Tuning v2, OPRO, EvoPrompt, APE等)在多个子任务(如假新闻检测、共指消解、仇恨言论检测、情感分析、主题分类等)上的表现,涵盖了LIAR、WSC、SST-2、AG‘s News、TREC等多个著名数据集,并报告了准确率、F1分数等评估指标的结果。这些数据为研究者提供了丰富的横向与纵向比较依据,揭示了不同优化策略在不同任务和模型上的相对优势与局限。
总结与展望
这篇综述论文对快速发展的提示优化领域进行了系统性的梳理和深入的分析。它通过方法论分类为研究者提供了一个清晰的知识图谱,通过任务和性能分析展示了该领域的实际进展与挑战。论文指出,当前研究的一个显著空白是缺乏对现有策略全面、系统的比较,这使得深入理解它们在不同类型任务中的相对优势、劣势和最佳用例变得困难。本综述通过汇编45种现有策略的详细信息,并分析它们对NLP领域的更广泛影响,为未来的比较研究和在一致实验设置下严格评估提示优化及基于LLM的预测管道奠定了坚实基础。最终,这项研究旨在集中分散的策略知识,促进现有提示优化策略的适配,以开发适用于未探索任务的创新预测器,推动自然语言处理技术向更高效、更可靠、更通用的方向发展。