EgoPlan-Bench2：面向真实世界场景的多模态大语言模型规划能力评测基准

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《INTERNATIONAL JOURNAL OF COMPUTER VISION》：EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios

【字体：大中小】 时间：2026年04月09日 来源：INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐：

　　为解决多模态大语言模型（MLLM）在复杂真实世界任务规划能力评估不足的问题，研究者推出EgoPlan-Bench2基准，覆盖4大生活领域24个场景的1321组问答对。实验揭示现有MLLM规划性能远低于人类水平，并通过提示优化与推理机制验证了其在视频推理领域的有效性，为具身智能发展提供关键评测工具。

在多模态大语言模型（Multimodal Large Language Model, MLLM）掀起人工智能通用性（Artificial General Intelligence, AGI）浪潮的当下，视觉-语言联合理解虽已突破图像描述、视觉问答等任务，但“看懂世界”离“规划行动”仍有巨大鸿沟——真实生活中，人类需基于第一视角观察、历史任务进展与环境动态，拆解目标并决策下一步动作。现有评测基准多聚焦理解能力，或局限于单一场景（如厨房），缺乏覆盖多样化现实场景的规划能力系统性评估工具。这一空白阻碍了MLLM向实用型具身智能助手演进。为此，研究团队提出EgoPlan-Bench2，旨在填补真实世界任务规划的评测真空。

本研究依托国际计算机视觉顶刊《INTERNATIONAL JOURNAL OF COMPUTER VISION》，以Ego4D大规模自我中心视频库为基础，构建涵盖工作、日常生活、爱好、娱乐4大领域24细粒度场景的1321组高质量多选题问答对；设计半自动数据构建流水线，结合GPT-4层级化目标提取与自适应观测帧筛选，确保任务复杂度适中且无视觉作弊漏洞；系统评估25个主流MLLM，通过消融实验解析历史进度与当前观测的关键作用，并探索训练无关的多模态提示策略；进一步结合链式思考（Chain-of-Thought, CoT）与群体相对策略优化（Group Relative Policy Optimization, GRPO）验证其对视频推理能力的区分度。

关键技术方法包括：基于Ego4D的自我中心视频筛选与清洗、GPT-4驱动的层级化任务目标分解与动作序列对齐、InternVL-1.5与GPT-4协同的自适应观测帧选择、多轮模型-人工双重验证保证数据质量；评测端采用统一采样帧策略（视频MLLM默认32帧、图像MLLM默认8帧），通过标准提示模板与精确匹配计算准确率；推理增强实验引入边界框提示、动作序列摘要等训练无关方法，并结合Gemini-2.5-Flash“思考模式”与Qwen-2.5-VL的GRPO后训练验证推理机制影响。

4.1 实验设置

评估25个竞争性MLLM（含Gemini-2.5系列、GPT-4V、Qwen2.5-VL、InternVideo-2.5等），统一输入处理：视频MLLM采样32帧（超长视频适配降帧），图像MLLM用8关键帧；提示模板固定为“基于视频选最佳答案，输出选项字母”，准确率按答案精确匹配计算，随机猜测基线25%。

4.2 主评估结果

所有模型平均准确率接近随机猜测（23%-27%），仅Gemini-2.5-Pro达44.05%，余下顶尖模型（GPT-4V、Gemini-2.5-Flash等）约30%。挑战源于三方面：自我中心视角的动态模糊与遮挡使当前观测理解难；长视频稀疏采样丢失关键时序信息；跨场景专业知识（如实验室设备操作）要求高，需融合多模态线索推理。

4.3 不同域与场景研究

Gemini-2.5-Pro在日常生活域表现最优（49.65%），因烹饪、清洁等场景知识常见于训练数据；工作域最低（41.33%），涉及黑smith、机械修理等专业工具流程，暴露MLLM领域知识短板。

4.4 视频长度影响

多数模型短视频（≤30秒）表现优于长视频，因固定帧采样导致长程任务关键动作丢失；唯Gemini-2.5-Pro长视频无衰减，显其时序建模优势。

4.5 深入分析

4.5.1 关键帧数影响

帧数增至16-32时收益饱和，再增无显著提升甚至下降；Qwen2.5-VL将采样帧作独立图像输入时，准确率从24.52%（视频编码）跃至38.22%，揭示视频token压缩是瓶颈。

4.5.2 多步规划扩展

Horizon-k（预测后续k步）实验中，Step-2/3准确率骤降至约25%，且Step-1性能随预测步增加而下降，显现有模型缺乏长视野连贯推理力。

4.6 错误归因

五类典型失败：Ⅰ型（当前状态误判，如未识别尼龙袋展开状态）、Ⅱ型（历史进度误解，如遗漏口罩放入包的动作）、Ⅲ型（时序认知混乱，混淆历史与当前时刻）、Ⅳ型（采样帧遗漏关键瞬时动作）、Ⅴ型（推理不足，如未推导“折袋后再存肉”的逻辑）。

5 训练无关多模态提示

针对历史进度，GPT-4V生成的结构化动作序列（Action-seq-GPT）比视频级描述更有效，准确率提升显著；真值动作序列（Action-seq-GT）进一步增效，证实时序结构信息重要性。针对当前观测，手部与物体边界框提示强化交互理解，提升明显；集成动作序列+边界框+CoT+自洽投票后，GPT-4V准确率达43.04%（原32.68%）。

6 视频推理影响验证

Gemini-2.5-Flash“思考模式”（2048思考token）较“无思模式”提升10.83%；Qwen2.5-VL经GRPO后训练，推理版（CoT SFT+GRPO）较直接答案版（Direct SFT）高5.52%，证实EgoPlan-Bench2可区分推理能力，支撑R1范式在视频规划中的价值。

EgoPlan-Bench2首次系统量化MLLM在多样化真实场景的任务规划短板，揭示时序结构信息与人-物交互提示的核心作用，证明其作为视频推理评测工具的敏感性。局限性在于静态选择题形式限制开放决策，未来需向仿真环境动态交互评测延伸。该工作为MLLM从“感知”到“行动”的演进提供关键路标，推动具身智能向人类水平规划迈进。

联系信箱：

粤ICP备09063491号