《Neurocomputing》:EFCV: Entity-aware fusion of consistency and visual clues for multimodal fake news detection
编辑推荐:
在社交媒体时代,结合文本和图像的多模态假新闻利用复杂的跨模态交互作用,变得日益具有欺骗性,从而对现有的检测方法构成了严峻挑战。现有方法在细粒度实体关系建模和跨模态证据的有效融合方面存在局限性。为应对这些挑战,本文提出了一种基于实体感知的一致性与视觉线索融合框架
在社交媒体时代,结合文本和图像的多模态假新闻利用复杂的跨模态交互作用,变得日益具有欺骗性,从而对现有的检测方法构成了严峻挑战。现有方法在细粒度实体关系建模和跨模态证据的有效融合方面存在局限性。为应对这些挑战,本文提出了一种基于实体感知的一致性与视觉线索融合框架(EFCV)用于多模态假新闻检测。该框架首先显式建模文本和图像中的多模态实体,并构建一个基于模态内一致性和跨模态对齐性的双重一致性度量机制,以计算实体重要性权重,从而增强关键矛盾特征。随后,构建了一个双视图证据生成机制,包括一致性视图和视觉线索视图,分别从跨模态语义对齐和图像内在合理性的维度提取具有判别力的证据。最后,引入一个基于证据理论的融合框架,通过不确定性量化自适应调整双视图权重,实现了可靠的多源证据融合以进行决策。在四个真实世界数据集(MR2_Chinese、MR2_English、Weibo和PHEME)上进行的全面实验表明,EFCV达到了90.53%的平均准确率和86.87%的平均F1值,相比最佳基线方法在准确率和F1值上分别提升了1.97%和2.80%,从而验证了该框架在处理细粒度语义矛盾和复杂多模态模式方面的有效性。
随着社交媒体的兴起,结合文本和图像的多模态假新闻传播迅速,对舆论和社会稳定构成严重威胁。例如,在2020年COVID-19大流行初期,一个结合了文本和图像的伪造“WHO消毒指南”在社交媒体上广泛传播,导致公众误用消毒剂并引发健康事件。在2022年俄乌冲突期间,被篡改的战场照片与捏造的叙事相结合,加剧了公众分裂。这些事件凸显了多模态假新闻的欺骗性和现实危害性,使得准确检测成为一项紧迫任务。早期的假新闻检测研究主要侧重于文本模态分析。随着社交媒体的发展,越来越多的假新闻以文本和图像结合的多模态形式传播,这对传统的单模态检测方法提出了严峻挑战。尽管多模态假新闻检测已引起广泛研究兴趣并取得了一系列进展,但现有方法仍面临若干挑战。首先,捕获细粒度语义不一致性的能力有限。许多方法强调全局特征对齐或粗粒度跨模态交互,未能有效验证细粒度跨模态一致性,并在数据集偏差下难以对细微证据进行鲁棒推理。其次,多尺度信息利用不足,因为单粒度特征不足以同时表示粗粒度语义和细粒度细节。在实际中,整体主题可能看似连贯,但决定性证据可能依赖于容易被忽略的小语境线索。第三,跨模态融合策略通常过于简单,固定的权重或启发式方法无法适应不同样本间的特征变异性。在多模态假新闻中,文本常包含夸张和歪曲等欺骗性表达,用户通常依赖伴随的图像来验证文本声明的真实性和可靠性。因此,多模态场景中的核心欺骗模式不仅在于文本本身,更在于文本与图像之间的语义不一致、证据不匹配和视觉异常。虽然文本风格和情感强度等单模态线索具有一定辅助价值,但显式建模文本内部欺骗特征会与现有文本编码模块产生大量重叠,并引入额外的不确定性,阻碍模型专注于更具判别性的跨模态一致性验证。因此,本文不单独建模文本内部欺骗线索,而是采用基于实体感知的文本-图像一致性推理和视觉线索提取作为检测的两个互补核心基础,文本信息被充分利用而非削弱:通过提取文本实体、学习细粒度语义和学习自适应一致性权重,文本特征被深度整合到跨模态验证中,为假新闻判断提供关键支持。
为应对这些根本性挑战,本文提出了基于实体感知的一致性与视觉线索融合框架(EFCV)。通过联合建模实体级语义和视觉线索,该框架解决了细粒度矛盾识别不足和跨模态融合效率低下的问题。其核心思想是显式利用实体级信息来增强对细粒度语义和视觉线索的敏感性,并将语义一致性分析和视觉线索提取视为两个通过多视图融合机制共同决策的互补视图。
研究人员主要开展了以下研究:首先,提出了一种基于双重一致性度量的实体感知增强网络。该方法设计了一种创新的实体加权方法,不仅评估实体与全局上下文之间的跨模态对齐性,还评估实体与局部上下文之间的模态内一致性。通过这种双重一致性度量,模型能够更准确地识别和放大最可能揭示矛盾的关键实体,从而显著提高假新闻的判别能力。其次,设计了一个自适应多尺度特征融合架构。为解决不同假新闻样本复杂度差异和单尺度特征表达能力有限的问题,构建了三种不同尺度的特征表示——全局粗粒度、加权细粒度和实体级,并引入了一个可学习的门控网络,根据输入样本特性动态学习这三种尺度之间的最优组合权重,使模型能在稳健的宏观语义和精确的微观细节之间灵活权衡。最后,将证据理论引入多模态决策融合。设计了一个由不确定性量化引导的自适应门控机制,使模型能够根据每个视图的置信度动态加权决策,从而在复杂和不确定条件下实现更稳健的判断。实验表明,该融合机制在处理不确定信息方面展现出显著优势。
该研究在四个真实世界数据集(MR2_Chinese、MR2_English、Weibo和PHEME)上进行了综合实验验证。结果显示,EFCV框架在四个数据集上的平均准确率达到90.53%,平均F1分数达到86.87%。与表现最佳的基线方法相比,EFCV在准确率和F1分数上分别实现了1.97%和2.80%的提升。这些结果证明了EFCV框架在处理细粒度语义矛盾和复杂多模态模式方面的有效性。
研究讨论部分指出,所提出的EFCV框架通过结合实体感知增强、多尺度融合和基于证据理论的自适应融合,有效应对了现有方法在捕捉细粒度跨模态不一致性和自适应融合多源证据方面的不足。实验结果证实,通过显式建模实体关系并利用双重一致性进行加权,能够更好地聚焦于关键矛盾信息;多尺度融合机制提供了更全面的特征表示;而基于不确定性的证据融合则增强了模型在复杂场景下的决策鲁棒性。这些发现为多模态假新闻检测领域提供了新的思路和有效方法。
研究结论部分指出,本文针对社交媒体上多模态假新闻泛滥带来的严峻挑战,提出了基于实体感知的一致性与视觉线索融合框架(EFCV)。该框架旨在解决现有方法在细粒度语义矛盾识别和可靠跨模态证据融合方面的局限。EFCV的核心贡献体现在三个方面:提出了基于双重一致性度量的实体感知特征增强网络,通过细粒度实体权重评估提升了矛盾敏感性;设计了自适应多尺度特征融合架构,实现了粗粒度语义与细粒度细节的灵活权衡;引入了基于不确定性量化的证据理论融合机制,增强了在不确定信息下的决策鲁棒性。在四个基准数据集上的实验证明了EFCV的优越性能,其达到了90.53%的平均准确率和86.87%的平均F1分数,相较于现有最优基线方法有显著提升,验证了其在处理复杂多模态假新闻方面的有效性。