测试时思维：强化学习在多模态大型语言模型推理中的应用与适应

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Test-Time Thinking: Reinforcement Adaptation for Multimodal LLM Reasoning

【字体：大中小】 时间：2026年04月30日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　陈浩天|徐彦宇|徐永辉|王博彦|王芳|崔丽珍山东大学软件学院，中国济南摘要尽管多模态大型语言模型（MLLMs）在推理能力方面表现出色，但它们在泛化到特定领域和处理分布变化下的多样化多模态输入时仍存在困难。在本文中，我们提出了一种新颖的测试时思考范式（TTRA），这是一种基于强化学

陈浩天|徐彦宇|徐永辉|王博彦|王芳|崔丽珍

山东大学软件学院，中国济南

摘要

尽管多模态大型语言模型（MLLMs）在推理能力方面表现出色，但它们在泛化到特定领域和处理分布变化下的多样化多模态输入时仍存在困难。在本文中，我们提出了一种新颖的测试时思考范式（TTRA），这是一种基于强化学习的适应框架，该框架仅使用未标记的测试数据在推理过程中动态优化推理。通过实证分析，我们首先发现现有的自监督目标（如熵或困惑度最小化）提供的学习信号较弱，常常导致重复或无信息量的输出。此外，我们的联合熵-困惑度分析揭示了探索与利用之间的内在不平衡：虽然稳定的适应可以提高短期准确性，但会损害整体泛化能力。基于这些发现，我们从理论上证明了强化学习在分布变化下提供了更具方向性和鲁棒性的适应能力，从而在测试时实现更可靠的多模态推理。基于这些见解，我们设计了一个结合强化驱动的推理优化和熵-困惑度正则化的联合目标，以实现探索与利用之间的平衡。广泛的实验表明，该方法在各种多模态推理基准测试和模型规模（3B、4B、7B和8B）上均表现出一致的改进，尤其是在持续适应场景下，平均性能提升约为8%。

引言

大型语言模型（LLMs）的显著成功（Achiam等人，2023年）推动了多模态大型语言模型（MLLMs）的发展（Bai、Chen、Liu、Wang、Ge、Song、Dang、Wang、Wang、Tang等人，Hurst、Lerer、Goucher、Perelman、Ramesh、Clark、Ostrow、Welihinda、Hayes、Radford等人），这些模型将语言理解扩展到了视觉和其他模态。然而，尽管取得了这些进展，当前的MLLMs仍然对训练和部署领域之间的分布变化非常敏感（Yi等人，2024年），导致在面对未见数据或多样化的用户情境时性能下降。如图1（a）所示，用户意图、语言风格和视觉语义的变化突显了实现鲁棒泛化和个性化面临的持续挑战，因为没有单一的MLLM能够完全满足所有下游任务需求或用户特定需求（Hu、Xu、Li、Li、Chen、Tu，2024b；Xu、Yin、Cai、Yi、Xu、Wang、Wu、Zhao、Yang、Wang等人）。

为了缓解分布变化的影响，人们提出了多种策略来提高MLLMs在动态环境中的适应性。训练时方法，例如微调，通过更新参数来使预训练模型适应下游任务（Hu等人，2023年）。尽管有效，但这些方法依赖于庞大的多模态数据集，通常包含数十亿的图像-文本对，这使得它们在计算上代价高昂且不适用于持续部署（Hurst等人，2024年）。像领域适应（Wu、Yan、Lin、Yang、Ng、Wu，2020年；Yi、Chen、Zhang、Xu、Zhou、Cui、Yu，2025年）和领域泛化（Wang等人，2022a）这样的方法减少了了对标签的依赖，但仍需要访问源数据，而由于隐私或所有权限制，这些数据往往无法获取。

为了减少对源训练数据的依赖，测试时学习成为了一个有前景的范式。测试时训练（TTT）（Sun等人，2020年）和测试时适应（TTA）在推理过程中调整模型参数以处理未见分布。虽然TTA提供了轻量级的即时适应（Chen等人，2025年），但现有方法通常依赖于简单的自监督目标，如熵最小化（Niu、Wu、Zhang、Chen、Zheng、Zhao、Tan，2022年；Wang、Shelhamer、Liu、Olshausen、Darrell，2021年），这些方法对噪声或长token序列敏感，并且在复杂的多模态任务中表现不佳。除了参数适应之外，检索增强生成（RAG）（Guu、Lee、Tung、Pasupat、Chang，2020年）通过外部知识丰富了MLLMs，但严重依赖于检索质量并增加了额外的开销。强化学习（RL）（Zuo等人，2025年）也通过奖励正确输出来提高推理和事实一致性，然而以准确性为导向的优化往往会限制模型行为的多样性。然而，这些方法通常假设源数据或外部知识库是可访问的，而在实践中这种情况很少见，并且会引入额外的检索或计算开销。

尽管最近取得了进展，现有方法仍面临三个根本性限制。（1）数据稀缺：用于微调或领域适应的高质量多模态标记数据仍然昂贵且难以获得，特别是对于特定领域或在线更新而言，而基于检索的方法（例如RAG）往往引入噪声或无关信息。（2）对自监督适应的过度依赖：如图1（b）所示，许多现有方法使用自监督目标（如熵或困惑度最小化）在测试时更新模型参数。然而，这些目标可能会强化错误的信心，在分布变化下产生不可靠的预测。（3）探索与利用之间的不平衡：强化学习方法强调利用已知的正确输出，但忽视了探索，在多模态推理任务中，可能存在多个有效答案，如图1（c）所示。

为了解决这些限制，我们提出了一种用于多模态LLM推理的测试时思考框架，称为TTRA，该框架仅使用未标记的测试数据实现强化驱动的适应，以缓解分布变化。具体来说，我们首先发现传统自监督目标的关键瓶颈在于它们在复杂多模态推理任务上的表现不佳（参见观察1）；单独的熵或困惑度都无法提供可靠的适应学习信号。对熵-困惑度动态的细致分析（参见观察2）表明，适应低熵和低困惑度样本可以提高稳定性，但会削弱探索能力，从而限制泛化。然而，这些自监督目标缺乏方向性指导，仅仅调整预测信心，而没有将模型朝向目标领域对齐，常常导致在领域变化下产生过度自信但有偏的解决方案。基于这些发现，我们得出了理论见解，表明强化学习比单独使用熵或困惑度最小化更有效地减少领域变化（参见观察3）。基于这些观察，我们设计了一个结合强化驱动的适应策略和熵-困惑度正则化的联合目标，使模型朝向测试分布，同时在动态多模态环境中实现探索与利用之间的平衡。

总之，我们的主要贡献有三个方面：

•
实证和理论洞察。我们通过实证和理论分析发现，传统的自监督目标为复杂多模态推理提供了不可靠的学习信号。我们的分析进一步表明，联合最小化破坏了探索-利用的平衡，而基于强化的适应提供了一个更有效和有方向性的解决方案，以缓解测试时推理中的分布变化。
•
基于强化的适应框架。我们提出了TTRA，它利用强化适应策略动态优化推理行为，而无需标记数据。具体来说，我们引入了一种感知困惑度的强化机制来稳定优势估计，并设计了一个熵-困惑度正则化项，以在动态多模态环境中平衡探索与利用。
•
在推理和持续适应任务上的广泛实验表明，我们的方法有效、可泛化，并且可以轻松应用于不同的基础模型和强化学习算法。

章节片段

在本节中，我们回顾了与我们的工作相关的先前研究，涵盖了三个主要领域：（1）多模态大型语言模型，（2）多模态推理，以及（3）测试时适应。

在本节中，我们介绍了所提出的TTRA，它使MLLMs能够“即时思考”并适应未见的多模态测试数据，从而缓解分布变化。在第3.2节中，我们首先通过细致的实证研究分析了先前TTA方法中使用的现有自监督目标的局限性。基于这些见解，我们设计了一个基于强化的适应框架，该框架结合了推理驱动的优化和熵-困惑度正则化

局限性和未来工作。尽管提出的TTRA在动态多模态推理任务中缓解了分布变化，但它仍无法完全捕捉现实世界场景的多样性和复杂性。不同的模型规模（例如3B vs. 7B）表现出不同的熵-困惑度分布，这使得在各种架构中一致地过滤不稳定样本变得具有挑战性。虽然我们的方法在没有训练数据或模型内部信息的情况下提高了推理一致性，但它仍然需要

表3和算法1

陈浩天：概念化、方法论、软件、写作——原始草稿、写作——审阅与编辑。徐彦宇：方法论、概念化、形式分析。徐永辉：监督、方法论、软件、写作——审阅与编辑。王博彦：软件、验证、调查。王芳：监督、方法论。崔丽珍：监督、资金获取、资源、项目管理。

作者声明他们没有已知的竞争性财务利益或个人关系，这些关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

在本节中，我们回顾了与我们的工作相关的先前研究，涵盖了三个主要领域：（1）多模态大型语言模型，（2）多模态推理，以及（3）测试时适应。

表3和算法1

作者声明他们没有已知的竞争性财务利益或个人关系，这些关系可能会影响本文报告的工作。

热点排行