知识图谱(KGs)已广泛应用于各种实际场景中,包括文本理解、推荐系统和信息检索任务(Dietz, Kotov, & Meij, 2018)。多模态知识图谱(MMKGs)作为传统KGs的重要扩展,旨在克服仅依赖图结构信息的局限性。通过结合与现实世界实体相关的文本和图像等多模态属性,MMKGs实现了更全面的知识表示(Chen, Zhang, Fang, Geng, Guo, Chen, Li, Zhang, Chen, Zhu, Li, Liu, Pan, Zhang, & Chen, Liu, Li, Garcia-Duran, Niepert, Onoro-Rubio, Rosenblum, 2019)。与传统KGs类似,MMKGs也面临着图中缺失知识的挑战(Liang et al., 2024)。现有MMKGs的更新通常依赖于手动注释,这不仅耗时且劳动强度大,而且在处理知识动态变化时效率低下(Shi & Weninger, 2018)。因此,开发更高效的MMKGC方法至关重要。
传统的知识图谱补全(KGC)方法主要基于KG嵌入模型,在单模态KGC中表现出良好的性能(Chao, He, Wang, Chu, 2021, Sun, Deng, Nie, & Tang)。然而,尽管最近的图结构模型(如GAFM(Ma et al., 2022)通过基于注意力的结构建模改善了实体表示,但它们主要关注图结构,并没有明确地对文本和视觉模态的互补语义进行建模。因此,当应用于MMKGC任务时,固有的局限性仍然存在。当前的MMKGC方法将模态信息编码到由预训练模型生成的单一嵌入中,然后使用融合和预测模块来评估三元组的可能性(Cao, Xu, Yang, He, Cao, Huang, 2022, Lee, Chung, Lee, Jo, Whang, 2023)。这些预训练模型在知识图谱补全任务中得到了广泛应用,提高了实体表示能力(Devlin, Chang, Lee, Toutanova, et al., 2019, Mousselly-Sergieh, Botschen, Gurevych, Roth, 2018)。在此基础上,最近的研究进一步探讨了多模态信息在补全任务中的作用,从模态融合和语义建模的角度出发。一部分研究强调通过注意力机制或图神经网络架构聚合多模态邻域信息,采用路径建模或多粒度语义建模策略来增强文本模态的表达能力(Wang, Liu, Li, Liu, Wu, Jin, 2024, Zhang, Liu, Li, Dai, Zhou, 2025b)。另一条研究路线关注模态异质性和跨模态语义一致性,引入了模态分布对齐、关系感知实例建模和跨模态对比学习等策略,以减轻模态噪声并实现更灵活的补全范式(Li, Zhu, Song, Zheng, Li, 2025a, Zhao, Zhang, Zhou, Qian, Song, Cai, 2024)。
尽管与传统方法相比,以往的MMKGC研究取得了进展,但这些方法仍面临诸多限制。1) 模态特征不平衡:在MMKGs中,不同模态内的特征分布往往存在显著不平衡(Xue et al., 2025)。例如,来自视觉模态的高维特征在嵌入空间中通常表现出强相关性且稀疏,而来自文本模态的语义嵌入可能表现出过度平滑或冗余表达。这种模态内的特征不平衡导致在联合训练过程中出现“模态偏见”,某些模态特征主导了特征融合阶段,而其他模态的重要信息被削弱甚至被掩盖。2) 不相关噪声干扰:许多现有的MMKGC方法在将视觉数据纳入传统知识图谱嵌入时,忽略了来自无关视觉信息的噪声,导致噪声干扰(Liu & Ren, 2025)。如图1所示,绿色框内的区域与目标关系直接相关,包括演员的面部特征以及“Welcome Home Roscoe Jenkins”和“James Earl Jones”等文本线索。相反,红色框内的区域(例如“Full Screen”标志和电影海报上的狗)是无关的噪声,与实体本身没有直接关联。现有方法在融合视觉信息时,经常无法有效区分与关系相关的视觉线索和无关噪声,从而引入了实体表示的扰动,影响了补全性能。当这些无关的视觉噪声被编码到实体表示中时,这些虚假特征会在评分过程中进一步传播,导致正确实体在Top-K排名中下降甚至被错误排除。
为了解决上述问题,本文提出了一种创新的MMKGC模型AGE-CMSF。首先,AGE-CMSF采用自适应门控嵌入(AGE)机制动态加权模内输入特征,从而减轻了通道和特征维度之间的表示不平衡。与主要关注模态级加权的现有方法不同,AGE在训练过程中自适应地学习每个模态特征的显著性,更有效地突出对实体补全至关重要的信息。在此基础上,我们进一步提出了跨模态语义融合(CMSF)方法来增强文本和视觉模态之间的语义一致性。CMSF在知识图谱语义表示的指导下选择性地融合跨模态信息,不仅在文本和图像之间实现了语义对齐,还明确地建模了它们之间的对应关系,从而最大限度地减少了无关信息对实体补全任务的影响。此外,我们引入了关系编码器来建模关系的语义偏好,使关系信息更有效地约束候选实体的表示学习。最后,在评分阶段引入了外部注意力(EA)机制,进一步增强融合三元组的表示能力,从而提高实体补全的判别能力和整体性能。
本工作的主要贡献如下:
•本文设计了一种自适应门控嵌入(AGE)机制,以缓解多模态知识图谱中的模内特征分布不平衡。通过动态调整每个模态内的特征分布,AGE不仅减轻了模态不平衡,还突出了关键特征,从而提高了模型的补全性能。
•本文提出了一种跨模态语义融合(CMSF)方法,以增强文本和视觉模态之间的语义对齐。CMSF在多模态知识图谱中实现了文本和视觉模态之间的语义对齐,减少了无关噪声对补全任务的影响,并提高了模型区分正负样本的能力。
•我们在多个MMKGC数据集上进行了实验。实验结果证明了所提方法在补全任务上的最佳性能。此外,还精心设计了一系列消融和比较实验,以证实所提模型框架中每个组成部分的必要性和泛化能力。
本文的其余部分组织如下。第2节回顾了多模态知识图谱补全和跨模态融合的相关工作。第3节详细阐述了所提出的架构并推导了每个组件的数学公式。第4节通过几个最先进的基线对补全性能进行了实证评估。第5节总结了研究并指出了未来研究的方向。