一个用于研究将提示结构作为机器人基础模型中的界面参数的研究平台
《Frontiers in Robotics and AI》:A platform for investigating prompt framing as interface parameters in foundation models for robotics
【字体:
大
中
小
】
时间:2026年04月22日
来源:Frontiers in Robotics and AI 3.0
编辑推荐:
摘要:基础模型,特别是大型语言模型(LLMs),在描述机器人控制、决策和执行的目标时越来越受欢迎。最近,已经提出了利用强化学习(RL)代理与LLMs相结合的混合范式来控制机器人的方法。然而,RL代理与语言模型之间的接口提供了一个独特的机会,可以探索提示框架如何影响此类混合系统。本
摘要:基础模型,特别是大型语言模型(LLMs),在描述机器人控制、决策和执行的目标时越来越受欢迎。最近,已经提出了利用强化学习(RL)代理与LLMs相结合的混合范式来控制机器人的方法。然而,RL代理与语言模型之间的接口提供了一个独特的机会,可以探索提示框架如何影响此类混合系统。本研究提出了一个受控实验平台,以测量和更好地理解RL代理与LLM之间接口的修改如何影响混合顾问-仲裁器架构的行为。我们在一个模拟的导航环境中,使用匹配的评估协议和初始化条件,比较了三种代理:(i)仅使用RL的表格Q学习;(ii)仅使用LLM(无状态)的动作选择;以及(iii)混合LLM + RL代理。在有限的交互预算下(每个世界10个剧集),混合LLM + RL代理的平均成功率和平均累积奖励都高于仅使用RL或仅使用LLM的基线。顾问通道的消除(随机推荐和空推荐)降低了性能,表明结构化的建议不仅仅增加了额外的文本。我们进一步通过评估导航角色角色、叙事角色以及在匹配条件下 caregiver提示的关系变体,证明了提示框架是一个受控因素,从而产生了不同的效果。本工作的贡献是提供了一个结构化的测试平台和评估方法,用于研究提示框架对多步决策和控制任务的影响。
1 引言
基础模型已成为探索人工智能各个领域的核心支柱:从神经科学(Moor等人,2023年;Zhou等人,2025年;Tak等人,2026年)和脑机接口(Yue等人,2024年)到自然语言处理和无线通信(Alikhani等人,2024年)。在机器人领域,基于语言的基础模型的快速进步为高级决策模块创造了新的可能性(Brown等人,2020年;Wang等人,2024年;Jeong等人,2024年)。利用自然语言作为输入,并结合语言模型的进步,特别是大型语言模型(LLMs),研究人员能够利用这些输入来描述机器人执行的一系列高级动作(Huang等人,2022年;Ahn等人,2022年;Song等人,2023年)。初步研究表明,像GPT-3这样的现成LLMs可以在仿真中生成合理的机器人控制任务(Brown等人,2020年;Huang等人,2022年),而最近的研究则展示了LLMs与真实机器人的完全集成,使得语言模型能够通过低级控制器进行推理和执行(Ahn等人,2022年;Driess等人,2023年;Ding等人,2023年;Liang等人,2023年;Brohan等人,2023年)。这反映了将基础模型与机器人规划、决策和执行相结合的更大趋势(Wang等人,2024年;Jeong等人,2024年;Kawaharazuka等人,2024年)。这引发了关于如何有效设计语言接口的新问题。
在考虑LLMs在机器人规划和执行中的作用时,必须考虑如何解决其已知的局限性,例如它们产生幻觉的倾向(Chakraborty等人,2025年;Han等人,2026年)、在序列决策方面的能力有限(Furuta等人,2024年)、空间理解能力(Liu等人,2025年)以及从经验中学习和适应环境的能力(Zhou等人,2023年)。LLMs的这些局限性在机器人应用中可能会产生累积的负面影响,因为幻觉可能导致不安全或不可预测的行为(Wang等人,2024年;Vemprala等人,2024年)。利用语言模型的优势与来自传感器或动作策略的低级控制器信息的混合接口设计为解决这些问题提供了潜在的方案(Aghaee和Shaker,2026年;Darmanin和Vella,2025年)。
在混合架构中的一个关键设计考虑是如何将低级信息整合并“展示”给语言模型,因为这会影响模型的策略和控制器的动作(Wang等人,2024年;Yang等人,2023年)。最近的研究探索了利用强化学习(RL)代理与LLM结合的混合架构(Ahn等人,2022年;Liang等人,2023年;Carta等人,2023年;Hu等人,2024年)。在顾问-仲裁器范式中(Zhou等人,2023年;Asawa等人,2025年),语言模型可能会建议高级动作或计划,然后由学习到的策略执行或否决(Ahn等人,2022年;Hu等人,2024年)。相反,训练有素的强化策略也可以作为“学生”,从语言模型的动作中学习,从而加速学习(Zhou等人,2024年)。其他人提出了额外的双策略或指导框架,其中来自LLM的指导策略或脚本化规划器提供探索性提示,而标准的RL策略则细化系统的行为(Uchendu等人,2023年;Hu等人,2024年)。这些方法利用了语言模型的战略推理优势,而RL代理处理低级别的试错过程,可能产生更高效的学习(Zhou等人,2024年;Du等人,2023年)。这种双策略方法的另一种变体是使用LLM生成的轨迹来预训练RL代理或塑造其奖励函数(Du等人,2023年;Colas等人,2023年;Yu等人,2023年)。在这些混合系统中,尽管提示框架可能具有重大影响,但往往被忽视(Chen等人,2025a)。
虽然一般的提示工程已经很好地利用了LLMs对措辞和上下文的敏感性,但有效的提示框架可以显著影响LLMs在序列决策任务中的表现(Wei等人,2022年;Yao等人,2022年;Shinn等人,2023年)。提示框架可以影响隐式规范如何改变模型对相同输入的理解,从而影响它如何选择动作(Shanahan等人,2023年;Kim等人,2024年)。例如,提供结构化的提示(即带有额外上下文或动作模板)使GPT-3模型能够为实体代理生成有效的计划(Huang等人,2022年;Liu等人,2024年;Chen等人,2025b)。此外,提示框架和输出格式在机器人控制中也被证明是有帮助的,因为结构可以帮助确保结果计划与机器人的能力和任务要求一致(Liang等人,2023年;Vemprala等人,2024年)。然而,在许多机器人和代理工作流中,提示迭代是试错过程,评估通常关注单轮正确性而不是闭环行为(Vemprala等人,2024年;Xi等人,2023年)。序列决策任务提供了直接反映在约束下的行为的客观指标,如成功率、累积奖励和不安全或低效动作的惩罚(Dann和Brunskill,2015年;Silver等人,2016年;Yang等人,2023年)。关键的是,这种观点允许将提示更改视为可测量的干预措施,而不是风格偏好(Kong等人,2024年;Kim等人,2024年),从而可以进行受控的提示比较。为了有效地进行这些比较,保持观察内容、输出约束和评估协议不变是至关重要的,这样框架就是主要的区别。
在这里,我们描述了一个系统地研究提示框架及其如何影响结合了LLM + RL代理性能的平台,其中LLM的参与跨越多个交互步骤而不仅仅是一次性指令。虽然单个提示可以产生一个完整的计划,但它通常无法预测所有情况。这激发了迭代提示框架的动机,在这些框架中,LLM和环境在循环中交互,模型不仅需要考虑单个动作的后果,还需要考虑多步骤的长期影响(Yao等人,2022年;Huang等人,2023年;Shinn等人,2023年)。在这些框架中,LLM可以接收中间反馈(即来自环境的观察、奖励信号或成功/失败结果),并修改其计划或提出更正。ReAct范式就是一个例子(Yao等人,2022年描述),其中LLM逐步骤地交错进行推理陈述和动作命令,以及反思方法,其中LLM在每次尝试后暂停以反思错误,然后使用更新后的策略重新尝试。Brooks等人类似地证明,LLM(Codex)可以通过上下文中的提示更新来实施试错学习,通过每次剧集后用新的状态-动作示例更新自己的提示来有效执行策略迭代。这些发现强化了反馈循环和顺序提示在利用基础模型进行机器人决策时的重要性,这与将它们视为固定的、一次性、单一问题的代理相反(Xi等人,2023年;Yang等人,2023年)。因此,在我们描述的实验平台上,我们首先关注LLM如何在混合系统中的多个步骤中作为交互式决策模块发挥作用。
本工作的主要贡献是首次调查如何使用这个受控平台来量化结构化建议和提示框架如何塑造混合LLM + RL控制循环中的行为,使用基于Gridworld的环境作为演示性和最小的导航任务(图1A)。Gridworld是一种成熟的方法,它为室内导航提供了简化代理,具有障碍物、本地感知和在步骤预算下的重复决策(Kaelbling等人,1998年)。在每一步中,混合代理接收一个本地观察和一个顾问建议,语言模型从固定的四个动作集合中选择一个执行的动作。尽管Gridworld与室内环境的完整机器人导航系统之间存在显著差距,但这种设计选择是有意为之,以便使用简化和代表性的顾问-仲裁混合控制代理来研究提示和接口驱动的效果(Chevalier-Boisvert等人,2019年;Shridhar等人,2021年)。该平台允许进行提示因素扫描,其中只有角色框架发生变化,而观察内容和动作约束保持不变。它允许执行严格的输出格式,因此每个步骤都产生一个有效的动作,并且可以可靠地衡量与顾问的分歧。此外,它支持用随机动作或空推荐令牌替换顾问的消除,以测试结构化建议的重要性是否超越了额外文本的存在。这些设计选择旨在隔离提示和建议渠道的条件效应,而不是构建一个完全真实的导航系统。
图1:用于评估混合LLM + RL代理的Gridworld环境。(A) 随机生成的Gridworld环境示例。(B) 仅使用RL的代理在给定步骤的决策过程。(C) 仅使用LLM的代理在给定步骤的决策过程。(D) 混合LLM + RL代理在给定步骤的决策过程。
使用这个平台,我们比较了仅使用RL、仅使用LLM和混合LLM + RL代理在Gridworld环境中的性能(图1B–D)。我们评估了顾问通道的消除及其效果,并总结了對关键RL和LLM超参数的敏感性(图2)。然后,我们展示了在不同角色(图3)和关系框架(图4)下提示框架效应的探索性受控实验。
图2:混合LLM + RL代理的基线比较、消除和对RL超参数的敏感性。(A) 仅使用RL、仅使用LLM和LLM + RL代理的成功率。(B) 随着消除(缺少建议、随机建议)LLM + RL代理的成功率变化。(C) LLM + RL代理对Q学习RL策略学习率超参数变化的敏感性。(D) LLM + RL代理对Q学习RL策略折扣因子超参数变化的敏感性。(E) LLM + RL代理对Q学习RL策略epsilon衰减率超参数变化的敏感性。(F) LLM + RL代理对LLM模型温度推断参数变化的敏感性。统计显著性使用单因素重复测量ANOVA和Dunnett的事后检验进行了评估,多比较表示为:*p < 0.05;**p < 0.01;****p < 0.0001;ns,无显著性。
图3:评估不同LLM角色的性能。(A) 导航角色代理的平均成功率。(B) 导航角色代理的平均累积奖励。(C) 叙事角色代理的平均成功率。(D) 叙事角色代理的平均累积奖励。统计显著性是通过单因素重复测量方差分析(one-way repeated-measures ANOVA)来评估的,并使用Dunnett的事后检验(post hoc test)进行多重比较,结果表示为:*p < 0.05;**p < 0.01;ns,无显著性。图4研究了关系框架对护理者角色的影响。(A)采用非家庭关系框架时的平均成功率。(B)采用非家庭关系框架时的平均累积奖励。(C)采用家庭关系框架时的平均成功率。(D)采用家庭关系框架时的平均累积奖励。统计显著性是通过单因素重复测量方差分析(one-way repeated-measures ANOVA)来评估的,并使用Dunnett的事后检验(post hoc test)进行多重比较,结果表示为:*p < 0.05;ns,无显著性。
2 方法
2.1 实验平台概述
我们开发了一个受控实验平台,以量化大型语言模型(LLM)的提示框架(“角色”或角色指令)如何影响其在作为强化学习(RL)“顾问”时的行为选择。该平台有四个核心组成部分:(i)一个程序生成的二维网格世界(Gridworld)导航环境,(ii)一个基于表格的Q学习代理(tabular Q-learning agent),(iii)一个具有固定输入/输出结构和严格解析功能的LLM代理,以及(iv)一个结合了RL策略和LLM的混合代理,它们在顾问-仲裁者循环(advisor–arbiter loop)中协同工作。一个核心设计目标是进行成对评估:世界配置和初始Q表被保存并重复使用,以便在相同的初始条件下(相同的障碍物布局、相同的起点/目标、相同的初始Q值)比较所有条件。该平台包括对状态/动作/奖励转换的逐步记录、RL建议、解析后的LLM决策,以及一个“覆盖”标签,用于指示LLM是执行了RL建议还是对其提出了异议。
2.2 网格世界任务环境
导航环境是一个大小可调的方形网格,数量必须是奇数。起始位置固定在中间的单元格,目标固定在右上角的单元格。障碍物以指定的密度随机放置(大约占网格单元格的25%),墙壁对应于网格边界。通过在有效约束下随机放置障碍物来生成世界。具体来说,障碍物的放置使用了拒绝采样方法,以确保(i)从起始位置到目标位置至少存在一条路径,(ii)空白区域是完全连通的(没有无法到达的“死区”)。每个被接受的世界都会被保存到磁盘上(包括网格掩码和起始/目标位置),并且相同的保存世界将在所有代理条件下重复使用以进行成对评估。所有主要实验都使用9 × 9的网格。补充图S1中使用了7 × 7、11 × 11和13 × 13的网格,这些网格的生成方法相同。任务目标是在导航过程中从起始单元格到达目标单元格,同时避开障碍物。代理可以在4个方向(上/下/左/右)上移动;墙壁和障碍物会阻止移动。一个剧集结束的条件是(i)达到目标或(ii)达到最大步数限制。所有实验中的这个最大限制都设置为网格的大小(81)。如果某个动作会使代理碰到墙壁(超出边界)或障碍物,代理将保持在原地并受到无效动作的惩罚。奖励分配如下:有效移动步数成本为-1,撞到墙壁/障碍物为-10(无移动),到达目标为+100(终结奖励)。
2.3 代理架构
我们评估了三种代理类型:仅基于RL的(RL-only)、仅基于LLM的(LLM-only)和混合型的LLM + RL。所有代理都与相同的环境和奖励函数进行交互;它们之间的区别仅在于接收的信息以及动作的选择方式。
2.3.1 仅基于RL的代理
仅基于RL的基线是一个基于表格的Q学习代理(Watkins和Dayan,1992),其Q表根据网格坐标(行,列)和动作(4个动作)进行索引。在训练过程中,动作的选择使用ε贪心策略(ε-greedy policy),并且ε值会随着剧集的进行而衰减。Q值初始化为从0.0到0.1之间的均匀分布中独立采样的小随机值。为了支持成对比较,给定Gridworld中的所有基于RL的代理(仅基于RL的、LLM + RL以及LLM + RL角色变体)都从相同的随机初始化Q表开始。用于基于表格的Q学习的RL超参数包括学习率0.15、折扣因子0.95、初始ε值0.95、最小ε值0.1以及ε值衰减率0.9(图2A、B、F、3、4;补充图S1–S5)。图2C–E的实验测试了其他RL超参数的影响,具体包括学习率(0.10和0.20)、折扣因子(0.90和0.99)以及ε值衰减率(0.85和0.95)。
2.3.2 仅基于LLM的代理
仅基于LLM的基线代理接收相同的本地观察信息(如果启用了位置信息),并根据严格限制的格式输出四种动作之一。LLM是无状态的;它不接收过去的状态或动作历史记录。输出结果是从固定模板中解析得出的;如果解析失败,则使用预定义的回退行为。
2.3.3 混合型LLM + RL代理
这种混合代理采用顾问-仲裁者架构,其中RL模块提供动作建议,而LLM选择实际执行的动作。每一步的流程是:观察 → RL建议一个动作 → LLM接收观察结果 + 建议 → LLM输出执行的动作 → 环境转换 → 使用实际转换更新Q表。顾问是一个标准的Q学习策略,在当前网格坐标处进行查询。在训练过程中,顾问的建议采用ε贪心策略:以ε的概率推荐一个随机动作,否则根据Q表推荐当前最佳动作。ε值随着剧集的进行而衰减,使得顾问在较短的训练时间内从主要随机推荐变为主要贪心推荐。顾问的Q表根据实际执行的动作进行更新,而不是根据顾问建议的动作更新。
LLM仲裁者使用相同的提示框架:一个系统提示,指定了角色框架(角色),以及一个用户消息,其中提供了观察字段和(对于混合型代理)顾问的建议动作。LLM生成(i)一份简短的报告和(ii)一个固定、可机器解析的格式(例如,类似XML的标签),该格式被解析为四种动作之一。LLM的配置(模型/提供者和温度)在各种条件下保持不变,并明确报告。主要实验(图2–4)和补充图1、2、4、5使用了Cerebras推理API上的GPT-OSS-120B模型。补充图S3比较了不同LLM模型作为仲裁者的表现,使用了Cerebras推理API上的Llama-3.3-70B模型。所有实验(图2A–E、3、4;补充图S1–S5)中的LLM推理温度都设置为0.5,而图2F中的实验测试了额外的LLM温度(0.1和0.9)。
2.4 实验
实验旨在(i)确定仅基于RL的、仅基于LLM的和混合型LLM + RL的代理之间的基线性能差异,(ii)通过消融实验(ablation experiments)测试结构化的RL建议是否重要,(iii)评估对关键RL超参数的敏感性,以及(iv)在匹配条件下量化由LLM角色驱动的差异。实验在多个随机生成的Gridworld环境中重复进行。在一个实验运行中,所有代理条件和角色都从相同的世界和相同的初始Q表开始(在相关情况下),以便在不同提示和代理架构之间进行成对比较。每个代理在较短的训练预算下执行(每个世界10个剧集),并且在这些剧集期间测量性能。补充图S2中的额外实验使用了更长的训练预算(每个世界25个剧集)。在整个研究中,我们共生成了50个世界:25个用于基线、消融和敏感性实验(图2;补充图S1–S3),另外25个用于角色条件和护理者关系变体(图3、4;补充图S4–S5)。
2.5 LLM角色
我们研究了多种角色,即提供给LLM仲裁者的系统和用户指令集:观察格式、决策约束和解析方法在所有角色中保持不变。这些角色被分为与导航相关角色和叙事/故事角色,以符合机器人技术中的辅助导航和决策场景。
2.5.1 导航角色
导航角色旨在模拟应用场景,例如脑机接口(BCI)导航模块、操作远程车辆的第一响应者或辅助轮椅用户的细心护理者。这些角色相对于“直接指令”基线进行评估,以确定在相同的感觉输入和顾问信号下,角色框架是否改变了决策过程。
2.5.2 叙事角色
叙事角色是从文学作品中的情节提取的虚构框架(例如,迷宫中的忒修斯、迷宫中的夏洛克、受《Westworld》启发的“多萝雷斯”),这些角色具有与叙事相关的任务框架和指令提示变化。这些框架在相同的观察和动作约束下进行评估,以避免将叙事与额外信息混淆。
2.5.3 护理者角色关系
为了探究关系框架是否会在单一导航角色内引发系统性变化,我们创建了仅修改关系标签的护理者变体(例如,“你正在帮助一个人”变为“你正在帮助你的邻居/朋友/孩子/配偶”,同时保持其他所有任务指令不变。
2.6 度量和统计分析
主要评估的指标是在10个剧集的训练预算内的平均成功率以及训练剧集结束时的平均累积奖励。次要指标是在成功试验中平均步数,这在补充图S4–S5中展示。所有分析都采用了按世界配对的实验设计:每个世界为不同条件提供了匹配的测量数据,从而允许进行重复测量推断。我们使用单因素重复测量方差分析(one-way repeated-measures ANOVA)并采用Dunnett的事后检验(post hoc test)进行多重比较。
3 结果
3.1 混合型LLM + RL代理在短训练窗口内提高了网格世界的成功率
图1总结了本研究中评估的网格世界导航环境和核心代理变体。图1A展示了此导航任务中随机生成的网格世界示例。当代理达到目标或耗尽剧集的步数限制时,一个剧集结束。图1B–D总结了评估的三种代理配置。仅基于RL的代理是一个基于表格的Q学习代理,它使用当前网格单元格(行,列)作为其状态,并从Q表中选择一个动作来执行,然后转换到下一个状态(图1B)。仅基于LLM的代理被告知它正在执行网格导航任务,并且只接收其附近区域的传感器读数描述——换句话说,就是描述当前位置周围四个方向上相邻单元格类型的本地观察结果(图1C)。基于LLM的代理根据其任务指令和本地观察结果来选择动作,而不依赖任何RL策略建议。混合型LLM + RL代理的工作原理如下:RL策略提供动作建议,LLM是最终的执行者(图1D)。与仅基于LLM的代理类似,混合型LLM也被告知它正在执行网格导航任务,并接收本地观察结果。此外,它还接收来自基于经验的学习系统的动作建议。在本研究中,RL策略是一个基于表格的Q学习代理。混合型代理中的Q学习更新是基于LLM实际执行的状态-动作转换来应用的,而不是基于RL策略建议的动作。在本研究的10个剧集训练窗口内,混合型LLM + RL代理的成功率显著高于仅基于RL的代理(p < 0.001)和仅基于LLM的代理(p < 0.05)(图2A)。当在更小(7 × 7)和更大的网格(11 × 11、13 × 13)上重复实验时(补充图S1),以及在更长的训练预算下(25个剧集)(补充图S2)时,也观察到了同样的效果。
3.2 混合型LLM + RL代理的消融测试
我们评估了对RL顾问策略的消融实验,以测试混合型LLM + RL代理的改进是否归因于结构化的RL建议,而不仅仅是LLM获得了额外的输入(图2B)。对混合型代理的第一个消融是随机顾问,其中LLM仍然接收动作建议,但这些建议不是来自RL策略,而是从四个可用动作中随机选择的。这种设置保留了顾问通道的存在,但去除了RL策略提供的学习建议。第二个消融是LLM期望接收输入,但建议字段被设置为“无”,而不是提供建议动作。这评估了模型在期望输入但实际没有输入时的行为。两种消融实验的表现都比原始的混合式LLM + RL代理(使用Q学习策略)要差,这表明混合式LLM + RL代理的性能并非仅仅依赖于额外文本的存在或随机建议。3.3 混合式LLM + RL代理对超参数的敏感性为了评估混合式LLM + RL代理对RL和LLM超参数的鲁棒性,我们进行了一个简短的敏感性分析。对于Q学习代理,我们评估了关键的学习率、折扣因子和epsilon-greedy衰减率(图2C–E)。对于LLM推理超参数,我们评估了不同的配置,即温度参数(图2F)和模型家族(补充图S3)。总体而言,这些超参数对LLM + RL代理利用顾问的能力影响不大,反映在成功率上的变化很小。3.4 LLM角色条件化我们探讨了角色条件化(即不同的上下文框架)如何改变这种混合式LLM + RL代理的性能(图3)。底层混合架构保持不变:LLM从Q学习策略接收建议。变化的是基于角色的任务框架提示。在保持底层代理架构(包括RL策略、训练环境和训练预算)不变的情况下,改变了任务的框架。这些实验是在一组新的25个初始化世界中进行的。在这个角色实验集中,比较是按世界配对的,以便每个角色都在相同的初始化协议和初始Q表下进行评估。角色框架分为两大类:旨在模拟应用机器人学上下文的导航-上下文角色(例如,用于BCI控制的电动轮椅的控制模块、操作远程机器人车辆的第一响应者,或物理上推扶轮椅中的人的护理者),以及旨在提供基于故事框架的叙事角色,同时保持任务相同。评估的叙事框架包括在迷宫中的Theseus、Sherlock以及在迷宫实验室实验中的受《西部世界》启发的“Dolores”代理。导航-上下文角色的表现与基线模型(直接接收任务指令)相似或略差(图3A,B)。相比之下,叙事角色的任务表现更具变异性(图3C,D)。特别是,Theseus角色的成功率及其平均剧集奖励显著下降(p < 0.05),而Dolores角色相对于基线混合指令有显著提高(p < 0.01)。Dolores叙事角色的这种改进体现在代理所采取的平均路径长度上(补充图S4)。3.5 护理者角色中的关系框架最后,我们探讨了任务的人际关系框架如何影响角色条件化混合代理的性能(图4)。在这些实验中,我们关注护理者角色,该角色在基线角色中没有指定任何关系;模型被指示帮助一个坐在轮椅上的人在室内环境中导航到目的地。为了修改关系框架,我们简单地改变指令,将个体重新定义为护理者具有社会关系的人。换句话说,指令中唯一的变化是护理者和被帮助者之间的关系,例如,在基线护理者角色中是“护理者帮助坐在轮椅上的个体”,而在这些护理者角色变体中,LLM被指示帮助邻居、同学、朋友、表亲、兄弟姐妹或配偶。在我们评估的有限的几种关系框架护理者角色变体中,我们看到这些变体的平均成功率和平??累计奖励有轻微提高。总体而言,更熟悉的关系显示出更高的成功率,“护理者帮助他们的孩子”变体的平均成功率和累计奖励有统计学上的显著提高(p < 0.05)。然而,这种随着关系变得更加熟悉而表现更好的趋势并没有体现在护理者角色变体所采取的平均路径长度上(补充图S5)。4 讨论这项工作展示了探索双策略LLM + RL代理的控制和结构化评估平台的关键初步实验。初步结果表明,该平台在使用Gridworld导航任务作为室内机器人导航的简单模拟时,能够有效评估提示框架和消融实验之间的差异。我们的初步实验使用每个世界10个剧集的短交互预算来验证这一平台,以强调在资源受限条件下的早期行为,而不是渐进式强化学习性能(Dann和Brunskill, 2015; Saunders等人, 2018)。这一选择是出于对基础模型运行时间和成本的实用考虑,同时也反映了由于安全、时间或操作限制(如高计算需求(Saunders等人, 2018; Wang等人, 2024)以及LLM的能量成本(Strubell等人, 2019; Luccioni等人, 2024; Fernandez等人, 2025)而导致的互动和重置受限的情况。此外,LLM被视为无状态的,以简化解释并隔离提示条件下的动作选择,而不是模拟基于记忆的导航(Brooks等人, 2023)。我们第一个实验中的发现(图2A)表明,在受控的Gridworld测试环境中,混合式LLM + RL顾问-仲裁代理在短期预算下的表现优于仅使用RL或仅使用LLM的代理。这一结果与其他文献中的报告一致,这些报告指出混合代理可以利用外部知识(例如基础模型如LLM)来提高RL代理的早期性能(Ahn等人, 2022; Wu等人, 2025)。这一发现有助于证明LLM仲裁器可以注入高阶先验或自然语言直觉,从而帮助克服RL代理典型的短視或随机初始行为,同时仍然使代理能够从其他环境反馈中学习。消融实验的结果表明,混合式LLM + RL代理的优势并不仅仅是由于额外的信息输入渠道的存在(图2B)。相反,结果表明RL策略建议的内容在提高混合代理的整体性能方面发挥了积极作用,与仅使用LLM或仅使用RL的代理相比。这一观察结果再次与先前的关于动作建议和政策塑造的研究一致,其中随机动作建议或没有顾问输入可能导致学习效率几乎没有或没有提高(Torrey和Taylor, 2013; Griffith等人, 2013)。在我们的案例中,RL策略提供了非平凡的结构化建议,LLM可以以迭代循环的方式利用这些建议。LLM仲裁器能够判断何时跟随或覆盖这些建议,这可能是利用了其世界知识和即时感官上下文。相比之下,“随机顾问”和“无顾问”条件的低性能结果强化了性能提升并不是由于额外的提示令牌或某种通用的正则化效果,而是由于RL驱动的建议的内容。这一发现与知识渊博的教师进行政策塑造的概念相符,即顾问的输入使仲裁器倾向于采取比单独行动时更好的行动,就像信息丰富的人类反馈可以引导RL策略做出最佳决策一样(Griffith等人, 2013)。角色和关系实验主要作为示例,说明这个平台如何以受控方式改变提示框架并测量哪些变化是重要的(图3, 4)。角色和角色指令是研究这个平台时的一个自然的第一维度,因为它们被广泛使用,并且可以在不改变任务动态的情况下进行变化(Shanahan等人, 2023; Kong等人, 2024; Deshpande等人, 2023)。在我们的实验中,导航-角色提示旨在模仿应用场景,如辅助导航模块、第一响应远程操作和护理,同时保持观察和动作约束不变。叙事提示增加了故事背景,同时保持了相同的底层任务。重要的是,这些不同的角色在我们的实验平台中获得了相同的观察和建议,使得LLM提示中的初始角色描述成为唯一需要变化的关键信息。尽管这种微小的差异,代理的决策模式在不同角色提示下有显著变化。观察到的这些角色之间的异质性表明,某些框架可能引入与任务一致的先验并提高一致性,而其他框架可能会引入谨慎性、竞争目标或解释偏见,从而降低性能。护理者提示中的关系措辞同样说明了在实践中使用LLM时,小的、语义上有意义的修改可以与可测量的性能差异相关联。我们强调,这些提示框架结果旨在作为受控的测量和示例,说明这个平台如何用于测试结构化建议和提示框架如何塑造混合式LLM + RL控制循环中的行为,而不是作为解释给定角色为何有帮助或有害的因果解释。例如,路径长度总结(成功剧集中的平均步数,补充图S4, S5)说明了平台支持的一种简单诊断:它们有助于区分主要提高效率的提示效果(更短的成功的轨迹)和主要减少失败模式的效应(更高的成功率但路径不 shorter)。该平台的目的是为了在未来工作中能够进行更有针对性的后续分析(例如,无效动作的频率、重访/循环或其他错误模式),而不是从这些初步实验中得出机械性解释。总之,这项工作的结果表明,提示框架可以显著改变基础模型在固定控制循环中的动作选择。我们的发现支持这样一种理论,即指导LLM驱动动作选择的策略不是固定的,因此可以受到角色驱动的任务框架或关系上下文等因素的影响。这些发现与先前的研究结果一致,即基于LLM的代理可以通过自然语言指令或“角色”来采取某些策略(Reed, 2022; Park等人, 2023),即使这些策略不是从环境中显式学到的。结合之前的探索,叙事和关系框架可能对任务和性能优化以及多步决策过程中的价值对齐都有用。然而,我们的发现也强调了在部署基于LLM的决策仲裁器时需要制定可靠的角色设计指南,因为虚构或非任务基础的提示框架可能会导致不可预测性,甚至在某些情况下导致角色做出次优选择。由于本研究的目的是提出一个新颖的实验平台,以结构化的方式研究提示框架的效果,因此一些研究设计选择是有意简化的。环境是一个具有简化动态和局部观察环的离散Gridworld,它没有捕捉连续控制、丰富的感知或状态估计的不确定性。顾问是表格化的Q学习,它不解决通过函数逼近的泛化问题。语言模型在步骤上是无状态的,这隔离了条件性提示效果,但没有测试记忆、长期规划或信念状态跟踪。在具有状态或历史增强的混合式LLM + RL代理中,由于模型的上下文包括先前的观察和决策,框架效应可能会持续或演变,从而可能改变与无状态设置相比的角色驱动差异的大小和稳定性。结果也可能取决于所选的语言模型和解码设置,使得跨模型的鲁棒性成为一个未解决的问题。此外,关系变体中的提示比较对于小效应大小可能不够有力。最后,指标强调任务完成率和效率代理,而不是机器人特定的标准,如舒适度、平滑度或超出障碍物避免的安全性。尽管简单,但本工作中概述的平台代表了在机器人技术中实用设计的一个重要工具,旨在利用基于语言的基础模型。我们的平台展示了如何将提示和模型接口视为可测量的系统参数,并在受控、配对条件下进行测试。我们的工作展示了评估这些提示框架的重要性,因为它们可以对结果产生可测量的影响。直接的未来步骤是在保持相同接口和日志记录的情况下添加记忆或有状态的控制器,以测试当历史信息可用时提示效果是否持续。另一个有趣的研究方向是用函数逼近和更丰富的观察来替代表格化的RL,同时保持顾问-仲裁器架构。该顾问系统不仅可以应用于强化学习(RL),还可以扩展到规划器、模型预测控制、安全模块或人类指导等领域,从而使用相同的测量方法来研究共享自主性。将相关任务迁移到更具真实感的导航仿真器中,既能提高仿真的真实性,又能保留配对环境下的评估与仲裁诊断功能。此外,跨模型基准测试有助于量化提示的敏感性如何受模型类型和解码设置的影响。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号