用于人机交接（Human-Robot Handover）中指示词（Deictic）释义的提示驱动视觉-语言（Vision-Language）框架

《Actuators》：A Prompt-Driven Vision-Language Framework for Deictic Interpretation in Human-Robot Handover

【字体：大中小】 时间：2026年06月19日 来源：Actuators 2.3

编辑推荐：

　　近期视觉-语言模型（Vision-Language Models, VLMs）的进展使机器人系统能够基于视觉与语言输入进行模型层面的理解与推理，为人机交互（Human–Robot Interaction, HRI）中用户意图的释义提供了新途径。特别地，物体交接

近期视觉-语言模型（Vision-Language Models, VLMs）的进展使机器人系统能够基于视觉与语言输入进行模型层面的理解与推理，为人机交互（Human–Robot Interaction, HRI）中用户意图的释义提供了新途径。特别地，物体交接中常用的指示表达（Deictic Expressions，如"拿这个"、"给我那个"）无法仅凭语言完全释义，需综合理解说话者视角及环境上下文。本研究提出一种用于人机交接中指示词释义的提示驱动视觉-语言框架。系统集成预训练VLM与分层提示（Hierarchical Prompt），将推理分解为意图分类、时空定位（Spatio-Temporal Grounding）及输出自校验，无需模型微调即可准确识别目标物体与目标位置。实验结果表明，在包括取放任务、机器人对人及人对机器人交接、时间指示命令等多种交互场景下，命令释义准确率达100%。值得注意的是，系统在提示-命令语言不匹配情况下运行，即使用英文提示准确释义韩文命令。渐进式系统配置分析进一步证明结构化提示对推理性能的关键作用。结果凸显了提示驱动方法在指示词释义与时空定位中的有效性，为HRI提供了实用的免训练框架。

论文解读：《A Prompt-Driven Vision-Language Framework for Deictic Interpretation in Human-Robot Handover》（发表于《Actuators》）

一、研究背景与动机

在传统的人机交互（Human-Robot Interaction, HRI）中，用户常使用指示词（Deictic Expressions，如"这个"、"那个"、"这儿"、"那儿"）配合手势来完成物体交接（Handover）或操作指令，而非精确坐标或物体名称。此类表达依赖说话者的指向动作、空间关系及交互历史进行消歧，属于典型的多模态语境依赖问题。现有基于文本的大型语言模型（Large Language Models, LLMs）缺乏非语言视觉 grounding（落地/定位）线索；传统基于规则的系统难以应对语境模糊性与场景差异；端-to-端视觉-语言-动作（Vision-Language-Action, VLA）模型虽具潜力但缺乏模块化灵活性且需大规模数据与微调。此外，自然语言中视频定位（Natural Language Video Grounding, NLVG）任务多处理自含描述性查询而非不完整的指示指令。因此，研究人员开展本研究，旨在利用预训练视觉-语言模型（Vision-Language Models, VLMs）配合结构化提示（Prompt）与实时三维手部运动学及深度空间线索，实现无需微调的指示词消歧与时空定位，完成人机交接场景中的高层意图释义。

二、主要关键技术方法

研究人员搭建基于ROS 2 Humble的硬件在环系统：协作机械臂Rainbow Robotics RB5-850搭载Intel RealSense D435i RGB-D相机（眼在手Eye-in-Hand配置），OpenAI Whisper small进行韩语语音转文本（Speech-to-Text, STT），MediaPipe提取二维手部关键点并推演至三维，YOLOv8做物体检测、Segment Anything Model 2（SAM 2）做分割掩码并投影至点云得物体三维质心，依食指掌指关节（Metacarpophalangeal, MCP）与指尖三维坐标估算指向射线与桌面交点（Pointing Coordinate）。用户语音触发rosbag同步录制RGB序列（6 fps）、物体质心、指向坐标及手部速度，合成视频与元数据送入云端VLM（Gemini 3 Flash Preview，温度0.1，Top-P 0.8，Top-K 64）。VLM接收含四大组件的分层英文提示——多模态输入表示（命令文本、视觉元数据、运动迹线Velocity Profile、交互历史Interaction History）、意图分类逻辑（四种场景行为模式描述）、时空定位机制（依速度突变初筛候选帧再结合视觉一致性定Target Frame即Frame_T与Goal Frame即Frame_G）、带自检清单的输出协议（Output Protocol要求Frame_G > Frame_T等时序因果约束）——输出结构化JSON推理结果，下游模块依Frame_T/Frame_G时间戳匹配空间数据确定机器人抓取目标与放置目标位姿，由关节空间RRT（Rapidly-exploring Random Tree）规划逆解轨迹执行。实验设四种场景各20次共80试，含韩文口语命令配英文提示验证跨语言释义，人工标注帧为基准评估场景分类准确率、Frame_T/Frame_G选择准确率（容差：指点±4帧/递交开掌±8帧）及整体命令释义准确率。

三、研究结果

4.1 VLM命令释义性能（VLM Command Interpretation Performance）

研究人员在优化参数下对80次试验定量评估。结果显示VLM在所有试次中正确分类四种交互场景并准确定位Frame_T与Frame_G，场景1、2中Frame_T始终早于Frame_G满足时序因果约束；Frame_T与Frame_G平均绝对时差约0.68帧（仅占指点容差17%、开掌容差9%）。整体命令释义准确率为100%，且在提示为英文、用户输入为韩文的语言不匹配条件下实现免微调准确释义，表明分层提示能有效引导预训练VLM进行时空一致的指示词消歧。

4.2 机器人实现与执行（Robot Implementation and Execution）

研究人员将释义模块集成至机械臂完整流水线与实物验证。基于VLM推理结果辅助模块精确定位目标与目的地位姿并执行动作，目标与目部位处可达工作空间时无操作失败。端到端时延分解：本地预处理（含STT约0.5–0.6 s及数据记录格式化约1.3–1.5 s）引入约1.8–2.1 s延迟，云端VLM推理占6–10 s，底层运动规划占0.1–0.3 s，总时延约7.9–12.4 s，瓶颈在云端VLM推理。

4.3 渐进式系统配置分析（Progressive System Configurations）

研究人员对比四阶段配置：(1) 本地轻量VLM（Gemma 3 4B）配最简提示——整体准确率60%，存幻觉与时序颠倒；(2) 换用云端更强VLM（Gemini 3 Flash Preview）并调参——幻觉减少但场景间表现不均，仅靠模型能力与参数调优不能根除提示结构缺陷；(3) 引入含意图分类、时空定位机制及自校验的结构化提示（缺时态指示专项指令）——多数场景精度显著提升，场景2因"that one"等词被高优先级记忆检索规则误判为场景4降至90%；(4) 增补时态指示表达区分指令（明确场景2为当前视觉交互、场景4含时态关键词需查历史）——最终达100%全场景准确率。证明结构化提示尤其是区分现场指称与基于记忆的时间指称是指标提升关键。

四、讨论与结论翻译

研究人员指出当前实验在受控光照、简单几何体及少遮挡条件下进行，复杂环境下感知层退化（光照变化、遮挡致手部标志或物体被遮、背景杂乱引起指向歧义）会影响推理层输入质量，未来可替换更强感知模块并保持语言-空间-时间对齐结构；端到端时延主要源于云端VLM推理，未来拟探索增量推理、本地高性能VLM（如Qwen2.5-VL、MiniCPM-V 4.5）、歧义检测加用户确认以提升实时性与可靠性。

研究结论翻译如下：

本研究提出了一种用于人机交接场景中指示词释义的提示驱动视觉-语言框架，使机器人系统能释义并执行基于多模态语境落地的自然语言命令。通过将结构化提示与预训练VLM内的实时视觉及运动学信息相结合，所提系统借助时空定位与交互感知推理成功消解了模糊的指示表达。实验结果表明该方法在取放任务、机器人对人及人对机器人交接和时间指示命令等多交互场景中达成100%命令释义准确率，精确通过时空定位识别目标与目的帧（及其对应位置）并保持时序因果一致性。渐进式配置分析进一步表明结构化提示对推理性能至关重要。值得注意的是系统以防提示（Prompt-Driven）方式运行无需任务特定微调（通常需昂贵训练与大数据集），并在提示-命令语言不匹配下演示了实用价值——用英文提示准确释义韩文命令。

热点排行