用于减少大型视觉语言模型中阿谀奉承行为的反事实残差对比学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Counterfactual Residual Contrastive Learning for mitigating sycophancy in Large Vision Language Models

【字体：大中小】 时间：2026年04月10日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　针对大视觉语言模型（LVLMs）存在的盲目服从用户指令导致的幻觉问题，提出CRCL框架与FABR数据集。通过轻量级残差投影调整潜在空间几何结构，有效分离事实语义与指令偏差，在MMhal-Bench上使幻觉率降低50%，同时整体准确率提升18.4%，并在对抗性场景中表现优于开源基线。

李亚茹|王彦雪|李萌|李新明|冯建波

北京建筑大学机械电子与车辆工程学院，中国北京100044

摘要

大型视觉语言模型（LVLMs）取得了显著进展，但仍然容易受到谄媚行为的影响——这是一种关键的故障模式，模型在这种情况下会为了迎合用户的误导性指令而牺牲视觉准确性。我们认为这种敏感性源于LVLMs内部纠缠的多模态表示几何结构，其中事实性和谄媚性的解释占据了具有本质上模糊决策边界的重叠潜在子空间。为了解决这个问题，我们提出了反事实残差对比学习（CRCL）这一轻量级的表示层干预框架。CRCL不依赖于侵入式的全参数微调，而是保持大部分LVLM框架不变，同时学习一个紧凑的残差投影器来重新构建潜在流形。在推理时，该投影器注入稀疏的引导向量，明确地将事实性语义与谄媚性噪声分离出来，同时保持模型的生成流畅性。为了支持这种表示重构，我们引入了事实性抗盲响应（FABR）基准测试集，其中包含885K个为标准视觉定位和对抗性场景设计的细粒度指令-响应对。大量实验表明，CRCL在不过度牺牲模型通用能力的情况下显著提高了模型的鲁棒性。在MMhal-Bench测试中，CRCL将幻觉率降低了50%以上，从27.08%降至12.50%，并使整体准确率提高了18.4%。此外，在对抗性的POPE评估协议下，CRCL的F1分数达到了85.67%，始终优于代表性的开源基线模型。

引言

最近的大型视觉语言模型（LVLMs）进展，包括GPT-4 [1]、Qwen3-VL [2]、LLaVA [3] 和 Gemini [4]，通过加深视觉感知与自然语言推理之间的相互作用，大大扩展了多模态理解的范围 [5]、[6]、[7]。通过大规模的指令微调和多模态对齐，这些模型在多种任务中表现出强大的性能，包括视觉问答、图像字幕生成和开放式推理 [8]、[9]、[10]。尽管取得了这些成就，LVLMs仍然继承了其大型语言模型（LLM）框架的一些根本局限性 [11]。最显著的问题是幻觉现象，这在多模态环境中依然存在，生成的响应可能与可观察到的视觉证据相矛盾，引发了对事实可靠性和一致性的严重担忧 [12]、[13]。

虽然大多数关于多模态幻觉的研究都集中在由感知缺陷引起的错误上，但由遵从指令导致的幻觉相对较少被探索 [14]、[15]。在真实的开放式对话中，用户可能会基于错误的前提提出问题，这可能是无意的，也可能是出于对抗目的，例如请求描述图像中不存在的对象 [16]、[17]。当前的LVLMs倾向于优先考虑与用户意图的对齐，而不是事实的准确性 [18]、[19]、[20]，如图1(a–b)所示。一旦接受了错误的假设，模型往往会生成支持性细节以保持内部一致性，从而产生一系列无法验证或相互矛盾的输出——这种现象通常被称为“滚雪球式幻觉” [21]、[22]、[23]。

这种脆弱性可以归因于当前LVLM训练范式中的一些固有因素。一个核心问题是强大的LLM解码器引入的语言先验的不成比例的影响 [24]、[25]。当视觉证据薄弱、不完整或模糊时，模型倾向于依赖参数化的语言知识，而不是将响应基于视觉输入 [26]、[27]、[28]、[29]。这种倾向还因标准指令微调语料库中的分布偏差而加剧，这些语料库主要由肯定且格式良好的问题-答案对组成。这样的分布隐含地奖励了遵从行为，即使指令与视觉证据相矛盾，也与感知到的效用相关联 [30]、[31]。这些因素共同导致了纠缠的多模态表示，其中事实性视觉线索和遵从指令的信号占据了潜在空间的重叠区域。因此，现有的视觉语言编码器无法在真实描述和谄媚性幻觉之间保持清晰的分离，阻碍了解码器在生成过程中区分视觉基础和指令驱动的偏差 [32]、[33]。

受此分析的启发，我们提出了反事实残差对比学习（CRCL）以及事实性抗盲响应（FABR）数据集，以实现有针对性的表示层干预。CRCL不会更新所有模型参数，而是冻结大部分预训练的框架，并引入一个轻量级的残差投影器，该投影器作用于选定的中间层。这种设计允许在不破坏模型通用能力的情况下控制潜在几何结构的调整。投影器在FABR数据集上进行训练，该数据集包含885k个覆盖事实性视觉定位和容易产生幻觉的反事实场景的指令-响应对。通过提供成对的事实性和幻觉样本，FABR使投影器能够学习稀疏的引导信号，抑制谄媚性干扰，同时保留视觉上基于事实的语义。大量实验证明了所提出方法的有效性。在MMHal-Bench测试中，整体得分从3.47提高到4.11，相对提高了18.4%，而幻觉率从27.08%降至12.50%。在对抗性的POPE测试环境中，CRCL的F1分数达到了85.67%，始终优于代表性的开源基线模型。整个训练流程如图2所示。

我们的主要贡献总结如下：

我们提出了CRCL，这是一种表示层框架，通过轻量级的残差投影和层特定的引导来减轻谄媚性幻觉，从而在潜在空间中更有效地分离事实性视觉语义和遵从指令的偏差。
我们构建了FABR数据集及其诊断子集FABR-Test，其中包含885k个精心设计的诱导幻觉的指令-响应对，用于分析和纠正LVLMs中的谄媚行为。
通过在多个基准测试上的广泛实验，我们展示了FABR和CRCL的结合显著抑制了幻觉，同时保持了或提高了整体多模态性能，证明了无需全模型微调的表示层干预的实用性。

章节片段

LVLMs中的幻觉检测

随着LVLMs在开放式多模态生成中的越来越多应用，检测幻觉内容已成为提高模型可靠性的重要前提 [34]、[35]。早期的评估方法主要依赖于手动检查，而最近的工作转向了更系统、更细粒度的检测方法，这些方法可以量化，并且在某些情况下可以在推理过程中进行监控。在基准测试方面，已经提出了几个数据集来标准化幻觉检测

数据集构建

LVLMs在响应包含错误或误导性前提的指令时经常表现出盲从行为，导致输出与视觉证据相矛盾。现有的基准测试主要在受限的问题-答案环境中评估幻觉，重点关注对象的存在性或属性的正确性。虽然这些方法对于受控评估有效，但它们只能部分反映开放式用户交互中遇到的挑战，因为在这些环境中，提示可能是

方法

本章介绍了提出的CRCL框架，该框架旨在增强大型视觉语言模型在视觉事实理解方面的判别能力，同时抑制由遵从指令引起的幻觉，而不影响模型固有的语言能力。

CRCL采用基于对比学习的轻量级对齐策略。该方法首先对深度网络进行逐层分析，以识别最敏感的语义层

评估基准和数据集

为了评估所提出框架的有效性，我们在五个互补的评估协议中进行了实验，这些协议涵盖了幻觉、谄媚行为和一般视觉感知。MMhal-Bench测量了属性和关系上的整体幻觉率。精心策划的FABR-Test评估了模型在高不确定性场景中对谄媚行为的抵抗力。POPE在对抗性条件下用于量化对象级别的幻觉。AMBER和MME提供了全面的

结论

在这项工作中，我们确定了谄媚行为是大型视觉语言模型中的一个关键但尚未充分研究的故障模式，并将其根源追溯到深度潜在空间中形成的纠缠多模态表示。为了解决这个问题，我们引入了CRCL，这是一种轻量级的表示层干预方法，通过对比几何对齐来重塑潜在流形。在我们新构建的FABR数据集的支持下，进行了一个包含885k个细粒度指令对的大规模基准测试

CRediT作者贡献声明

李亚茹：撰写——原始草稿、可视化、验证、方法论、调查、数据整理。王彦雪：撰写——审稿与编辑、可视化、监督、项目管理、方法论、资金获取、数据整理。李萌：撰写——原始草稿、监督。李新明：撰写——审稿与编辑、资源准备、概念化。冯建波：可视化、监督、软件开发。

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了ChatGPT-4o来提高文章的可读性和语言表达。使用该工具/服务后，作者根据需要对内容进行了审阅和编辑，并对出版物的内容负全责。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。

致谢

本研究得到了国家自然科学基金（52275079）、北京青年学者计划和广西科技重大项目（AA23062031）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言