《INTERNATIONAL JOURNAL OF COMPUTER VISION》:EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios
编辑推荐:
为解决多模态大语言模型(MLLM)在复杂真实世界任务规划能力评估不足的问题,研究者推出EgoPlan-Bench2基准,覆盖4大生活领域24个场景的1321组问答对。实验揭示现有MLLM规划性能远低于人类水平,并通过提示优化与推理机制验证了其在视频推理领域的有效性,为具身智能发展提供关键评测工具。
在多模态大语言模型(Multimodal Large Language Model, MLLM)掀起人工智能通用性(Artificial General Intelligence, AGI)浪潮的当下,视觉-语言联合理解虽已突破图像描述、视觉问答等任务,但“看懂世界”离“规划行动”仍有巨大鸿沟——真实生活中,人类需基于第一视角观察、历史任务进展与环境动态,拆解目标并决策下一步动作。现有评测基准多聚焦理解能力,或局限于单一场景(如厨房),缺乏覆盖多样化现实场景的规划能力系统性评估工具。这一空白阻碍了MLLM向实用型具身智能助手演进。为此,研究团队提出EgoPlan-Bench2,旨在填补真实世界任务规划的评测真空。
本研究依托国际计算机视觉顶刊《INTERNATIONAL JOURNAL OF COMPUTER VISION》,以Ego4D大规模自我中心视频库为基础,构建涵盖工作、日常生活、爱好、娱乐4大领域24细粒度场景的1321组高质量多选题问答对;设计半自动数据构建流水线,结合GPT-4层级化目标提取与自适应观测帧筛选,确保任务复杂度适中且无视觉作弊漏洞;系统评估25个主流MLLM,通过消融实验解析历史进度与当前观测的关键作用,并探索训练无关的多模态提示策略;进一步结合链式思考(Chain-of-Thought, CoT)与群体相对策略优化(Group Relative Policy Optimization, GRPO)验证其对视频推理能力的区分度。
关键技术方法包括:基于Ego4D的自我中心视频筛选与清洗、GPT-4驱动的层级化任务目标分解与动作序列对齐、InternVL-1.5与GPT-4协同的自适应观测帧选择、多轮模型-人工双重验证保证数据质量;评测端采用统一采样帧策略(视频MLLM默认32帧、图像MLLM默认8帧),通过标准提示模板与精确匹配计算准确率;推理增强实验引入边界框提示、动作序列摘要等训练无关方法,并结合Gemini-2.5-Flash“思考模式”与Qwen-2.5-VL的GRPO后训练验证推理机制影响。
4.1 实验设置
评估25个竞争性MLLM(含Gemini-2.5系列、GPT-4V、Qwen2.5-VL、InternVideo-2.5等),统一输入处理:视频MLLM采样32帧(超长视频适配降帧),图像MLLM用8关键帧;提示模板固定为“基于视频选最佳答案,输出选项字母”,准确率按答案精确匹配计算,随机猜测基线25%。
4.2 主评估结果
所有模型平均准确率接近随机猜测(23%-27%),仅Gemini-2.5-Pro达44.05%,余下顶尖模型(GPT-4V、Gemini-2.5-Flash等)约30%。挑战源于三方面:自我中心视角的动态模糊与遮挡使当前观测理解难;长视频稀疏采样丢失关键时序信息;跨场景专业知识(如实验室设备操作)要求高,需融合多模态线索推理。
4.3 不同域与场景研究
Gemini-2.5-Pro在日常生活域表现最优(49.65%),因烹饪、清洁等场景知识常见于训练数据;工作域最低(41.33%),涉及黑smith、机械修理等专业工具流程,暴露MLLM领域知识短板。
4.4 视频长度影响
多数模型短视频(≤30秒)表现优于长视频,因固定帧采样导致长程任务关键动作丢失;唯Gemini-2.5-Pro长视频无衰减,显其时序建模优势。
4.5 深入分析
4.5.1 关键帧数影响
帧数增至16-32时收益饱和,再增无显著提升甚至下降;Qwen2.5-VL将采样帧作独立图像输入时,准确率从24.52%(视频编码)跃至38.22%,揭示视频token压缩是瓶颈。
4.5.2 多步规划扩展
Horizon-k(预测后续k步)实验中,Step-2/3准确率骤降至约25%,且Step-1性能随预测步增加而下降,显现有模型缺乏长视野连贯推理力。
4.6 错误归因
五类典型失败:Ⅰ型(当前状态误判,如未识别尼龙袋展开状态)、Ⅱ型(历史进度误解,如遗漏口罩放入包的动作)、Ⅲ型(时序认知混乱,混淆历史与当前时刻)、Ⅳ型(采样帧遗漏关键瞬时动作)、Ⅴ型(推理不足,如未推导“折袋后再存肉”的逻辑)。
5 训练无关多模态提示
针对历史进度,GPT-4V生成的结构化动作序列(Action-seq-GPT)比视频级描述更有效,准确率提升显著;真值动作序列(Action-seq-GT)进一步增效,证实时序结构信息重要性。针对当前观测,手部与物体边界框提示强化交互理解,提升明显;集成动作序列+边界框+CoT+自洽投票后,GPT-4V准确率达43.04%(原32.68%)。
6 视频推理影响验证
Gemini-2.5-Flash“思考模式”(2048思考token)较“无思模式”提升10.83%;Qwen2.5-VL经GRPO后训练,推理版(CoT SFT+GRPO)较直接答案版(Direct SFT)高5.52%,证实EgoPlan-Bench2可区分推理能力,支撑R1范式在视频规划中的价值。
EgoPlan-Bench2首次系统量化MLLM在多样化真实场景的任务规划短板,揭示时序结构信息与人-物交互提示的核心作用,证明其作为视频推理评测工具的敏感性。局限性在于静态选择题形式限制开放决策,未来需向仿真环境动态交互评测延伸。该工作为MLLM从“感知”到“行动”的演进提供关键路标,推动具身智能向人类水平规划迈进。