Cognidrive：基于多步骤多模态思维链推理的认知自动驾驶技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Multimedia》：Cognidrive: Cognitive Autonomous Driving Understanding With Multistep Multimodal Chain-of-Thought Reasoning

【字体：大中小】 时间：2026年06月04日 来源：IEEE Transactions on Multimedia 9.7

编辑推荐：

　　摘要：视觉语言模型（VLMs）的进步引发了对基于语言的驾驶方法的兴趣。然而，现有方法仅限于单步视觉问答（VQA），而人类驾驶员则利用多模态信息来构建连贯的思维链（CoT）。为了缩小这一差距，我们提出了Cognidrive，这是一个基于VLM的认知驾驶理解框架。在Cognidr

摘要：

视觉语言模型（VLMs）的进步引发了对基于语言的驾驶方法的兴趣。然而，现有方法仅限于单步视觉问答（VQA），而人类驾驶员则利用多模态信息来构建连贯的思维链（CoT）。为了缩小这一差距，我们提出了Cognidrive，这是一个基于VLM的认知驾驶理解框架。在Cognidrive中，Cognidrive-Agent用于与真实世界的驾驶场景互动，Reasoning模块用于提取物体信息，Knowledge模块用于记录环境知识。该框架使VLM能够执行多步环境交互，生成人类可解释的多模态CoT推理，以支持驾驶决策。具体而言，Cognidrive-Agent使用多视图图像投影仪从周围视图图像中提取特征，并结合物体空间位置嵌入来编码交通物体的空间位置。此外，我们提出了M

2Drive指令数据集来评估和提升VLM的多步多模态CoT推理能力。该数据集包含58,000对问答对，涵盖8个子任务，具有多样化的推理材料和扩展的推理链。使用M

2Drive和DriveLM数据集的实验表明，Cognidrive显著优于五个强大的基线模型，并达到了最先进的性能。

联系信箱：

粤ICP备09063491号

摘要：

热点排行