Cognidrive:基于多步骤多模态思维链推理的认知自动驾驶技术
《IEEE Transactions on Multimedia》:Cognidrive: Cognitive Autonomous Driving Understanding With Multistep Multimodal Chain-of-Thought Reasoning
【字体:
大
中
小
】
时间:2026年06月04日
来源:IEEE Transactions on Multimedia 9.7
编辑推荐:
摘要: 视觉语言模型(VLMs)的进步引发了对基于语言的驾驶方法的兴趣。然而,现有方法仅限于单步视觉问答(VQA),而人类驾驶员则利用多模态信息来构建连贯的思维链(CoT)。为了缩小这一差距,我们提出了Cognidrive,这是一个基于VLM的认知驾驶理解框架。在Cognidr
摘要:
视觉语言模型(VLMs)的进步引发了对基于语言的驾驶方法的兴趣。然而,现有方法仅限于单步视觉问答(VQA),而人类驾驶员则利用多模态信息来构建连贯的思维链(CoT)。为了缩小这一差距,我们提出了Cognidrive,这是一个基于VLM的认知驾驶理解框架。在Cognidrive中,Cognidrive-Agent用于与真实世界的驾驶场景互动,Reasoning模块用于提取物体信息,Knowledge模块用于记录环境知识。该框架使VLM能够执行多步环境交互,生成人类可解释的多模态CoT推理,以支持驾驶决策。具体而言,Cognidrive-Agent使用多视图图像投影仪从周围视图图像中提取特征,并结合物体空间位置嵌入来编码交通物体的空间位置。此外,我们提出了M2Drive指令数据集来评估和提升VLM的多步多模态CoT推理能力。该数据集包含58,000对问答对,涵盖8个子任务,具有多样化的推理材料和扩展的推理链。使用M2Drive和DriveLM数据集的实验表明,Cognidrive显著优于五个强大的基线模型,并达到了最先进的性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号