Cognidrive:基于多步骤多模态思维链推理的认知自动驾驶技术

《IEEE Transactions on Multimedia》:Cognidrive: Cognitive Autonomous Driving Understanding With Multistep Multimodal Chain-of-Thought Reasoning

【字体: 时间:2026年06月04日 来源:IEEE Transactions on Multimedia 9.7

编辑推荐:

   摘要: 视觉语言模型(VLMs)的进步引发了对基于语言的驾驶方法的兴趣。然而,现有方法仅限于单步视觉问答(VQA),而人类驾驶员则利用多模态信息来构建连贯的思维链(CoT)。为了缩小这一差距,我们提出了Cognidrive,这是一个基于VLM的认知驾驶理解框架。在Cognidr

  

摘要:

视觉语言模型(VLMs)的进步引发了对基于语言的驾驶方法的兴趣。然而,现有方法仅限于单步视觉问答(VQA),而人类驾驶员则利用多模态信息来构建连贯的思维链(CoT)。为了缩小这一差距,我们提出了Cognidrive,这是一个基于VLM的认知驾驶理解框架。在Cognidrive中,Cognidrive-Agent用于与真实世界的驾驶场景互动,Reasoning模块用于提取物体信息,Knowledge模块用于记录环境知识。该框架使VLM能够执行多步环境交互,生成人类可解释的多模态CoT推理,以支持驾驶决策。具体而言,Cognidrive-Agent使用多视图图像投影仪从周围视图图像中提取特征,并结合物体空间位置嵌入来编码交通物体的空间位置。此外,我们提出了M2Drive指令数据集来评估和提升VLM的多步多模态CoT推理能力。该数据集包含58,000对问答对,涵盖8个子任务,具有多样化的推理材料和扩展的推理链。使用M2Drive和DriveLM数据集的实验表明,Cognidrive显著优于五个强大的基线模型,并达到了最先进的性能。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号