自适应门控嵌入与跨模态语义融合在多模态知识图谱补全中的应用

《Expert Systems with Applications》:Adaptive Gated Embedding and Cross-Modal Semantic Fusion for Multimodal Knowledge Graph Completion

【字体: 时间:2026年04月07日 来源:Expert Systems with Applications 7.5

编辑推荐:

  提出AGE-CMSF框架解决多模态知识图谱补全中的模态特征失衡和噪声干扰问题,通过自适应门控嵌入动态调整特征权重,跨模态语义融合实现高效语义对齐,结合外部注意力机制增强实体表示的鲁棒性,实验表明在多个基准数据集上显著优于现有方法。

  
Jiang Su|Juanjuan Yao|Lian Li|Yian Zhu
西北工业大学计算机科学学院,中国西安,710129

摘要

多模态知识图谱补全(MMKGC)的目标是解决多模态知识图谱(MMKGs)中缺失实体的关键问题,从而提高其适用性。然而,许多现有的MMKGC方法并没有明确地对跨模态语义对齐进行建模,这可能导致在多模态特征融合过程中丢失重要信息,并限制了抑制噪声的能力,从而影响补全任务的性能。为了解决上述挑战,本文提出了一种新的MMKGC框架:自适应门控嵌入与跨模态语义融合用于多模态知识图谱补全(AGE-CMSF)。首先,AGE-CMSF通过结合全局上下文信息动态调整不同通道的重要性,使模型能够自适应地平衡模内特征的响应强度,并增强其捕捉细粒度语义的能力。其次,我们提出了一种跨模态语义融合方法,在统一的通道空间中实现视觉和文本信息之间更好的语义对齐,并通过基于注意力的交互结构隐式地减轻模态之间的无关噪声。最后,我们在三元组评分阶段引入了外部注意力机制,以进一步提高模型在复杂语义推理中的鲁棒性和泛化能力。实验结果表明,AGE-CMSF在多个基准测试中始终优于现有方法,在Hit@1指标上平均提高了3.23%,在MRR指标上提高了2.37%,这突显了其在噪声较大和模态异构的多模态知识图谱补全任务中的有效性。我们的源代码可在以下链接获取:https://github.com/ddaipaibulaotie/AGE-CMSF

引言

知识图谱(KGs)已广泛应用于各种实际场景中,包括文本理解、推荐系统和信息检索任务(Dietz, Kotov, & Meij, 2018)。多模态知识图谱(MMKGs)作为传统KGs的重要扩展,旨在克服仅依赖图结构信息的局限性。通过结合与现实世界实体相关的文本和图像等多模态属性,MMKGs实现了更全面的知识表示(Chen, Zhang, Fang, Geng, Guo, Chen, Li, Zhang, Chen, Zhu, Li, Liu, Pan, Zhang, & Chen, Liu, Li, Garcia-Duran, Niepert, Onoro-Rubio, Rosenblum, 2019)。与传统KGs类似,MMKGs也面临着图中缺失知识的挑战(Liang et al., 2024)。现有MMKGs的更新通常依赖于手动注释,这不仅耗时且劳动强度大,而且在处理知识动态变化时效率低下(Shi & Weninger, 2018)。因此,开发更高效的MMKGC方法至关重要。
传统的知识图谱补全(KGC)方法主要基于KG嵌入模型,在单模态KGC中表现出良好的性能(Chao, He, Wang, Chu, 2021, Sun, Deng, Nie, & Tang)。然而,尽管最近的图结构模型(如GAFM(Ma et al., 2022)通过基于注意力的结构建模改善了实体表示,但它们主要关注图结构,并没有明确地对文本和视觉模态的互补语义进行建模。因此,当应用于MMKGC任务时,固有的局限性仍然存在。当前的MMKGC方法将模态信息编码到由预训练模型生成的单一嵌入中,然后使用融合和预测模块来评估三元组的可能性(Cao, Xu, Yang, He, Cao, Huang, 2022, Lee, Chung, Lee, Jo, Whang, 2023)。这些预训练模型在知识图谱补全任务中得到了广泛应用,提高了实体表示能力(Devlin, Chang, Lee, Toutanova, et al., 2019, Mousselly-Sergieh, Botschen, Gurevych, Roth, 2018)。在此基础上,最近的研究进一步探讨了多模态信息在补全任务中的作用,从模态融合和语义建模的角度出发。一部分研究强调通过注意力机制或图神经网络架构聚合多模态邻域信息,采用路径建模或多粒度语义建模策略来增强文本模态的表达能力(Wang, Liu, Li, Liu, Wu, Jin, 2024, Zhang, Liu, Li, Dai, Zhou, 2025b)。另一条研究路线关注模态异质性和跨模态语义一致性,引入了模态分布对齐、关系感知实例建模和跨模态对比学习等策略,以减轻模态噪声并实现更灵活的补全范式(Li, Zhu, Song, Zheng, Li, 2025a, Zhao, Zhang, Zhou, Qian, Song, Cai, 2024)。
尽管与传统方法相比,以往的MMKGC研究取得了进展,但这些方法仍面临诸多限制。1) 模态特征不平衡:在MMKGs中,不同模态内的特征分布往往存在显著不平衡(Xue et al., 2025)。例如,来自视觉模态的高维特征在嵌入空间中通常表现出强相关性且稀疏,而来自文本模态的语义嵌入可能表现出过度平滑或冗余表达。这种模态内的特征不平衡导致在联合训练过程中出现“模态偏见”,某些模态特征主导了特征融合阶段,而其他模态的重要信息被削弱甚至被掩盖。2) 不相关噪声干扰:许多现有的MMKGC方法在将视觉数据纳入传统知识图谱嵌入时,忽略了来自无关视觉信息的噪声,导致噪声干扰(Liu & Ren, 2025)。如图1所示,绿色框内的区域与目标关系直接相关,包括演员的面部特征以及“Welcome Home Roscoe Jenkins”和“James Earl Jones”等文本线索。相反,红色框内的区域(例如“Full Screen”标志和电影海报上的狗)是无关的噪声,与实体本身没有直接关联。现有方法在融合视觉信息时,经常无法有效区分与关系相关的视觉线索和无关噪声,从而引入了实体表示的扰动,影响了补全性能。当这些无关的视觉噪声被编码到实体表示中时,这些虚假特征会在评分过程中进一步传播,导致正确实体在Top-K排名中下降甚至被错误排除。
为了解决上述问题,本文提出了一种创新的MMKGC模型AGE-CMSF。首先,AGE-CMSF采用自适应门控嵌入(AGE)机制动态加权模内输入特征,从而减轻了通道和特征维度之间的表示不平衡。与主要关注模态级加权的现有方法不同,AGE在训练过程中自适应地学习每个模态特征的显著性,更有效地突出对实体补全至关重要的信息。在此基础上,我们进一步提出了跨模态语义融合(CMSF)方法来增强文本和视觉模态之间的语义一致性。CMSF在知识图谱语义表示的指导下选择性地融合跨模态信息,不仅在文本和图像之间实现了语义对齐,还明确地建模了它们之间的对应关系,从而最大限度地减少了无关信息对实体补全任务的影响。此外,我们引入了关系编码器来建模关系的语义偏好,使关系信息更有效地约束候选实体的表示学习。最后,在评分阶段引入了外部注意力(EA)机制,进一步增强融合三元组的表示能力,从而提高实体补全的判别能力和整体性能。
本工作的主要贡献如下:
  • 本文设计了一种自适应门控嵌入(AGE)机制,以缓解多模态知识图谱中的模内特征分布不平衡。通过动态调整每个模态内的特征分布,AGE不仅减轻了模态不平衡,还突出了关键特征,从而提高了模型的补全性能。
  • 本文提出了一种跨模态语义融合(CMSF)方法,以增强文本和视觉模态之间的语义对齐。CMSF在多模态知识图谱中实现了文本和视觉模态之间的语义对齐,减少了无关噪声对补全任务的影响,并提高了模型区分正负样本的能力。
  • 我们在多个MMKGC数据集上进行了实验。实验结果证明了所提方法在补全任务上的最佳性能。此外,还精心设计了一系列消融和比较实验,以证实所提模型框架中每个组成部分的必要性和泛化能力。
  • 本文的其余部分组织如下。第2节回顾了多模态知识图谱补全和跨模态融合的相关工作。第3节详细阐述了所提出的架构并推导了每个组件的数学公式。第4节通过几个最先进的基线对补全性能进行了实证评估。第5节总结了研究并指出了未来研究的方向。

    章节片段

    相关工作

    在本节中,我们对当前多模态知识图谱补全和跨模态信息融合的研究现状进行了简要分析。

    问题定义

    在本研究中,MMKGs被定义为G=(E,R,T,M)。其中E表示实体集,R表示关系集。T是三元组集,每个三元组的形式为(eh, r, et),其中eh, etErR。符号M表示与实体相关的多模态信息,包括图像和文本描述。MMKGC的目标是预测三元组中缺失的实体。具体来说,给定一个不完整的三元组,如(eh, r, ?)或 (?, r, et),

    实验

    在本节中,我们在多个MMKGC任务上验证了我们提出模型的有效性。首先介绍了实验设置,包括使用的数据集、采用的评估指标和比较的基线方法。随后,我们通过AGE-CMSF的主要实验结果、每个模块的消融研究结果、泛化分析和案例研究来回答研究问题。提出的研究问题如下:
  • RQ1.
  • 结论与讨论

    本文提出了一种新的MMKGC模型AGE-CMSF。在AGE-CMSF中,我们首先设计了自适应门控嵌入(AGE)机制,动态调节每个模态内的特征重要性,从而避免在融合过程中出现模态偏见,否则可能会影响模型的补全性能。然后我们引入了跨模态语义融合(CMSF)方法,以实现KGs中结构和多模态信息之间的高效对齐。

    CRediT作者贡献声明

    Jiang Su:概念化、形式分析、方法论、软件、初稿撰写、审稿与编辑、验证。Juanjuan Yao:概念化、调查、方法论、软件、撰写——审稿与编辑。Lian Li:形式分析、方法论、撰写——审稿与编辑、监督。Yian Zhu:形式分析、方法论、撰写——审稿与编辑、验证、监督。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号