终身记忆组织：通过贝叶斯聚类和大型语言模型实现增量式多模态数据融合

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition Letters》：Lifelong Memory Organization: Incremental Multi-Modal Data Fusion via Bayesian Clustering and Large Language Models

【字体：大中小】 时间：2026年03月29日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　自主代理在开放世界环境中的多模态感知与持续学习机制研究，提出融合视觉与体感数据的统一潜在表示，通过非参数贝叶斯聚类实现动态记忆整合，结合LLM构建感知-行动循环，显著提升复杂任务成功率。

史俊峰|潘海南|黄凯宏

国防科技大学智能科学与技术学院，中国湖南长沙410073

摘要

在动态的开放世界环境中，实现强大的感知能力要求智能体持续处理和整合异构的感觉数据流。虽然大型语言模型（LLMs）具有强大的推理能力，但它们缺乏连续多模态数据融合和终身经验积累的固有机制。为了解决这个问题，我们提出了一个框架，将感知与高级决策过程相结合。首先，我们引入了一种多模态融合机制，将高维视觉输入与结构化的本体感觉状态融合成一个统一的潜在表示。其次，为了管理连续的感觉数据流，我们引入了一种基于非参数贝叶斯聚类的动态记忆整合机制。这使得在线、无监督地发现新的场景类别和逐步构建多模态体验成为可能，而无需固定约束。最后，这些融合的表示驱动了一个基于LLM的感知-行动循环，使智能体能够检索相关的历史背景以支持适应性行为。在Minecraft实体环境中的实验表明，我们的方法通过连接感知、记忆和规划，提高了适应性和鲁棒性。具体来说，在复杂任务中，我们的方法相比基线Plan4MC的平均成功率提高了约13%，突显了其在自主智能体终身实体适应中的实际价值。

引言

在追求自主智能的过程中，持续且连贯的感知是与物理世界有效交互的基础。无论是机器人系统还是虚拟化身，实体智能体都必须持续处理从高维视觉数据到低维本体感觉状态的多模态感觉数据流，以构建对其环境的连贯理解。虽然深度强化学习（DRL）[1]和模仿学习[2]、[3]在特定感觉运动技能的建模方面取得了进展，但这些方法通常将感知视为静态的、特定于任务的映射。它们难以处理现实世界操作的“终身”特性，因为在这些环境中数据分布会发生变化，新的场景会出现，历史背景必须被保留以指导未来的行动。

在开放世界环境中，这一挑战变得更加突出[4]、[5]。在这里，可能的状态组合空间是无限的，事件发生得很少。传统的感知模型虽然在语义分割[6]、[7]、[8]等基础任务上有效，但主要局限于融合视觉线索（如颜色、纹理特征和空间信息）。它们缺乏从有限观察中整合跨领域知识或融合异构模态（例如视觉和语言）成统一、可查询表示的灵活性。更根本的是，当前的方法往往无法在持续的感觉处理和高级推理之间建立闭环。要实现真正的自主性，智能体需要一个不仅能实时融合多模态数据，还能将其结构化为支持适应性决策的可进化记忆的系统。

这项工作的动机在于大型语言模型（LLMs）作为实体智能体的强大推理引擎的潜力[9]。然而，LLMs本质上是无状态的且受文本限制的。为了弥合连续感觉数据流和推理之间的关键差距，我们提出了一个新颖的终身记忆组织框架。我们的方法通过多模态融合将多模态感觉数据编码成一个统一的、结构化的潜在表示。为了处理感知的连续性，我们采用了一种基于非参数贝叶斯模型的高效在线增量聚类机制。这使得智能体能够动态地将流式观察组织成结构化的簇，有效地进行无监督的终身学习。面对新场景时，智能体利用这种融合的记忆来支持LLM的推理，从而实现强大且适应性的感知-行动循环。本工作的主要贡献总结如下：

•

我们引入了一种可解释的多模态融合机制，将视觉特征与本体感觉状态描述整合到结构化的潜在变量中。

•

我们开发了一个基于非参数贝叶斯聚类的动态记忆整合框架，支持新场景类别的在线发现，并在保持现有知识稳定性的同时促进经验的持续整合。

•

我们建立了一个由LLM驱动的感知-行动循环，将逻辑推理与实体体验相结合，弥合了开放世界环境中从原始感觉融合到适应性执行的差距。

开放环境中实体智能体的鲁棒决策需要多模态感知、结构化经验记忆和符号推理的协同整合。尽管在每个领域都取得了显著进展，但现有的方法未能将它们统一成一个连贯的框架，以实现持续的、主动的决策。具体来说，这些方法难以将连续的感觉数据流转化为长期使用的结构化知识，并进行动态处理

方法

在本节中，我们概述了我们提出的用于记忆形成和基于经验的推理的框架，该框架能够对多模态历史交互进行编码、可扩展存储和上下文检索，将其转化为结构化、语义丰富的知识表示，从而在复杂、开放的环境中实现鲁棒、适应性的决策。

实验

在本节中，我们展示了系统实验，证明了记忆如何增强智能体规划和优化其行为的能力。

结论

本研究探讨了开放世界环境中实体感知和决策的关键挑战。我们提出了一个框架，通过整合增量贝叶斯聚类和基于LLM的推理，解决了感觉体验碎片化、多模态数据融合和政策适应性等问题。在Minecraft虚拟开放世界环境中进行的系统实验表明，我们的方法提高了任务成功率，并在复杂场景中增强了鲁棒性。

CRediT作者贡献声明

史俊峰：写作 – 审稿与编辑，撰写原始草稿，可视化。潘海南：写作 – 审稿与编辑，项目管理。黄凯宏：写作 – 审稿与编辑，可视化，监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

方法

实验

结论

CRediT作者贡献声明

利益冲突声明

热点排行