综述：通过有信息的初始化来改进连续的知识图谱嵌入

《Neurocomputing》：Improving continual knowledge graph embedding via informed initialization

【字体：大中小】 时间：2026年05月26日 来源：Neurocomputing 6.5

编辑推荐：

　　杰拉德·庞斯（Gerard Pons）| 贝西姆·比拉利（Besim Bilalli）| 安娜·克雷阿尔特（Anna Queralt）加泰罗尼亚理工大学服务与信息系统工程系，巴塞罗那Tech，西班牙巴塞罗那08031 **摘要** 知识图谱（Knowledge G

　　杰拉德·庞斯（Gerard Pons）| 贝西姆·比拉利（Besim Bilalli）| 安娜·克雷阿尔特（Anna Queralt）
加泰罗尼亚理工大学服务与信息系统工程系，巴塞罗那Tech，西班牙巴塞罗那08031

**摘要**
知识图谱（Knowledge Graphs, KGs）将知识表示为实体及其关系的结构化图。知识图谱嵌入（Knowledge Graph Embeddings, KGEs）通过将实体和关系表示为连续向量，使得在KGs上进行学习和推理成为可能。许多KGs会频繁更新，因此需要其KGEs能够适应这些变化。KGEs的持续学习方法通过在新嵌入的同时更新现有嵌入来应对这一问题，从而在不从头开始重新训练的情况下处理新事实。这些方法中的一个必要步骤是新嵌入的初始化，这对嵌入的准确性以及训练所需的时间都有重要影响。当前的持续学习方法要么使用非持续场景中的随机初始化方法，忽略现有嵌入中的相关信息；要么依赖于特定于模型的初始化方法，这些方法仅与特定的KGE训练模型兼容。
我们提出了一种新颖的、基于信息的嵌入初始化策略，可以无缝集成到现有的KGEs持续学习方法中。我们的方法利用KG模式以及先前学到的嵌入，在每个持续学习步骤中生成语义上有所依据的初始表示，从而增强知识获取能力，并减少最终嵌入中的灾难性遗忘。实验结果表明，我们的策略提高了KGEs的预测性能并增强了知识保留能力。此外，它还加快了学习过程，减少了训练周期的数量，从而缩短了逐步学习新嵌入所需的时间。最后，我们的评估表明，这些好处与所使用的KGE学习模型无关。

**1. 引言**
知识图谱（KGs）通过建模实体及其之间的不同关系，提供了一种结构化且相互关联的知识表示方式。KG中的信息以三元组的形式表示，描述了头部实体和尾部实体通过某种关系（例如 [head, relation, tail]）的交互。除了提供原生查询功能外，KG中的信息还可以用于下游任务，如推荐系统 [1] 或实体分类 [2]。KGs还广泛应用于其他领域，如生物医学知识发现、问答、欺诈检测或大规模协作知识库，其中需要整合和利用不断演变的数据。
通常，这些机器学习（ML）应用程序期望其模型的输入是向量。为此，KG中存储的信息可以表示为低维向量，即知识图谱嵌入（KGEs）。这些嵌入是通过训练模型来学习的，模型会迭代调整相应的向量表示，以捕捉KG的结构和语义特征。随着基于KGE的应用程序在不同领域的广泛应用，越来越需要调整嵌入模型以适应现实世界图形的动态特性，因为新的实体和关系会随着新三元组的添加而不断出现。根据应用的不同，这种动态性可以通过不同的方式建模，包括时间或顺序设置，其中KG会随着时间的推移逐步更新。在这项工作中，我们关注的是常见的情况：更新以一系列小批量新三元组的形式到达KG，需要在不完全重新训练的情况下逐步调整嵌入。
在许多现实世界应用中，这种更新是频繁且逐步进行的，而不是以大批量形式发生。在推荐系统等场景中，这些更新往往规模较小但频率较高，必须定期将其纳入KGE中以提供及时的推荐。向KGE中添加新知识有两个主要影响：一方面，必须为KG中之前未存储的实体和关系学习新的嵌入；另一方面，KG中的现有元素可能出现在新的三元组中，因此需要在一定程度上更新它们的表示以捕捉新信息。例如，考虑一个用于在流媒体平台上推荐电影的KG。当新用户u加入平台并对现有电影m进行评论时，需要为u学习一个嵌入，并且也需要更新现有电影m的嵌入，以便在未来的推荐中考虑新的评论。
为了在不从头开始重新训练模型的情况下整合这些变化，已经提出了持续学习技术。这些技术可以是简单的通用方法（如微调），也可以是特定于KGE的方法（如LKGE [3] 和 incDE [4]）。然而，以持续的方式调整KGE仍然具有挑战性，因为模型必须在引入新知识与保留先前学到的信息之间取得平衡。
与大多数持续学习场景不同，在这些场景中，可训练参数的集合保持固定或仅略有增长，而在KGE中的持续学习涉及以实体嵌入的形式反复引入新的可训练参数。每个新实体对应一个新向量，必须与先前学到的嵌入一起进行优化。由于这些新引入的参数在训练过程中直接与现有参数交互，它们的初始化（即在开始优化之前赋予它们的初始值）对训练过程有重要影响，并适用于引入新实体的每个逐步学习步骤。尽管如此，以往关于KGE持续学习的工作主要集中在通过正则化、重放或架构调整来减轻灾难性遗忘上，而对新引入嵌入的初始化关注较少。因此，我们的目标不是提出一种新的KGE持续学习方法，而是通过解决一个基本但尚未充分探索的组件来改进现有方法：新引入嵌入的初始化。

**初始化的影响**
图1说明了初始化的影响。当新嵌入的初始化位置远离其最优位置时（图1左侧），三元组的训练损失会增加，这会导致在优化过程中对三元组中所有元素的嵌入进行调整。这些对现有嵌入的大规模调整可能导致它们丢失过去获得的信息，从而导致灾难性遗忘 [5]。

**下载：** 下载高分辨率图像（198KB）
**下载：** 下载全尺寸图像

**图1.** 新实体如何破坏与其在三元组中共同出现的现有实体嵌入的概念性表示。阴影区域表示当新实体的嵌入初始化远离（左侧）或接近（右侧）其最优位置时可能出现的干扰。

通常，作为从零开始训练模型的传统做法，嵌入（或其他ML领域中的权重）是随机初始化的 [4]，[6]。
在持续学习场景中，尽管有先前学到的嵌入可以提供有用的先验信息，但这种做法仍然很常见。随机初始化将初始嵌入向量放置得任意，不能保证它们最终学习位置的接近性。这在图2（左侧）中得到了直观体现，其中随机初始化的（红色）和最终学到的（蓝色）向量通常相距较远。这不仅对嵌入的质量有影响，也对其所需的训练时间有影响。例如，正如实验中将详细说明的那样，在某些情况下，从适当的初始化开始训练可以快近3倍地收敛，并获得比依赖随机值好40%的预测性能。鉴于持续学习是从已经学到的嵌入开始的（见图2中的灰色点），可以利用这些嵌入来初始化新嵌入，使它们更接近最终位置（见图2右侧）。

**下载：** 下载高分辨率图像（234KB）
**下载：** 下载全尺寸图像

**图2.** 对于已经包含2909个实体嵌入（灰色）的KG，添加10个新实体的初始化嵌入位置（红色）和最终学到的嵌入（蓝色）的UMAP表示。

在这项工作中，我们解决了在持续KGE学习中初始化新引入实体嵌入的反复出现的问题。我们提出了一种与模型无关的、基于信息的初始化策略，该策略加速了新知识的获取，同时减少了先前学到的信息的丢失（即灾难性遗忘）。这在新信息频繁且以小增量出现的领域尤为重要。我们的方法利用与KG相关的模式以及现有的KGEs，为新嵌入设置初始值，使其包含所属类别的潜在语义。通过利用这些信息，新嵌入的初始化位置显著更接近其最终位置。
此外，由于初始化是不同类型持续学习技术（如正则化、蒸馏或复述方法）的第一步，而我们提出的初始化方法与持续学习技术或KGE模型无关，因此我们的方法可以在预测性能和时间方面改进这些方法的结果，而无需对它们进行任何修改。因此，我们的方法是对现有持续KGE方法的补充，可以轻松应用于不同的动态KG环境。

**本文的贡献如下：**
- 我们提出了一种与模型无关的、基于信息的KGEs初始化方法，该方法利用KG模式和现有的KGEs，增强了旧知识的保留和新知识的获取。
- 我们提供了定量评估，证明所提出的初始化策略显著减少了新嵌入的训练时间，同时获得了更好的预测结果。
- 我们引入了用于量化KGEs持续学习中知识获取和保留的指标，这些指标借鉴了神经网络中的持续任务学习。这些指标是通用的，适用于任何持续学习方法、KGE模型和准确性指标。
- 我们展示了我们的基于信息的初始化方法在现有持续学习方法和KGE模型（如翻译和语义匹配模型）中的优势。

**本文的其余部分结构如下：**
第2节介绍了相关工作。第3节解释了所提出的初始化方法。第4节描述了不同的实验并讨论了结果。最后，第5节给出了我们的结论。

**2. 背景和相关工作**
在本节中，我们首先简要回顾了可以在新信息可用时用于更新KGEs的持续学习方法，以便为我们的方法提供背景框架。然后，我们介绍了这些方法如何处理新嵌入的初始化，讨论了现有策略及其局限性，并指出了激发我们提案的差距。

**2.1. 更新知识图谱嵌入**
大多数学习KGEs的方法假设KG是静态的 [7]，因此它们并不设计为逐步考虑新的三元组。
已经提出了归纳学习方法，这些方法利用已知模式和关系来泛化并推断新信息，以获得新实体的嵌入。这些方法直接使用图神经网络 [8]、注意力机制 [9] 或基于结构 [10]、[11] 或文本信息 [12]、[13] 的编码器来计算最终嵌入。然而，这些方法仅获得新嵌入，并不使用新三元组中的信息来更新现有的嵌入。此外，它们依赖于外部数据，需要学习和维护额外的模型，或修改原始KGE模型架构。
一些问题可以通过设计用于考虑新知识并允许添加新实体的架构来解决，从而创建了如puTransE [14]、DKGE [15] 或 RotatH [16] 等KGE模型。然而，鉴于新的最先进模型不断被提出，并且根据数据集的不同，最佳性能的模型可能有所不同，因此更合适的解决方案是设计与模型无关的方法，这些方法专注于设计持续学习策略。
微调是最基本的方法，它涉及仅使用新三元组对已经学到的嵌入进行训练，因此在时间和计算成本方面比重新训练更有效。然而，微调容易导致灾难性遗忘 [5]，因为在训练过程中先前学到的知识会被新三元组覆盖。
通过扩展微调策略，如使用弹性权重巩固（EWC）等正则化方法（通过选择性惩罚来最小化已学习权重的变化 [5]），或使用情节记忆重放（EMR）等复述方法（采样模型已经训练过的数据并将其添加到新的训练数据中 [17]），可以缓解这个问题。最近，一些持续学习方法被专门设计用于知识图谱嵌入（KGEs），即LKGE [3]或incDE [4]。前者是一种利用知识转移技术和正则化来避免灾难性遗忘的方法，而后者通过在学习新三元组时定义层次顺序来保持图的结构，并通过使用增量蒸馏和两阶段学习策略来避免灾难性遗忘。尽管有这些进步，现有的持续学习方法隐含地假设新引入的嵌入是正确初始化的。然而，在实践中，初始化在收敛速度和持续学习过程产生的嵌入性能中起着关键作用，但这一点仍然没有得到充分探索。因此，这项工作不是提出一种新的持续学习方法，而是提出了一种可以与当前持续学习方法结合使用的初始化策略，以改善它们的知识保留和获取能力。特别是，我们将被忽视的初始化步骤视为持续KGE中的关键因素。

2.2. 初始化持续知识图谱嵌入
在机器学习模型中，权重（例如，在KGE设置中的嵌入）必须在训练过程中调整到最终值之前进行初始化。通常，这些权重是从均匀分布或高斯分布中随机初始化的[18]，Xavier [19]或He [20]初始化方法常用于定义均匀分布的范围或高斯分布的均值和标准差。这些初始化技术也用于训练KGEs [3]、[4]。
当KGEs不是从零开始训练而是逐步训练时，新嵌入的初始化不需要是随机的，因为它可以依赖于已经学到的嵌入。一些专注于KGEs持续学习的工作[3]、[21]简要探讨了这一想法。具体来说，这些方法通过使用新元素在模型中的预期位置来初始化新嵌入，该位置是根据它们参与的三元组得出的。例如，在基于这些方法的TransE模型[22]中，通过将相应关系和头部实体的嵌入相加来获得尾部实体的嵌入的预期位置。基于这个想法，方程（1）展示了[21]中提出的初始化方法，其中和分别是作为头部或尾部实体参与的三元组。这些三元组由一个关系和一个相应的尾部或头部实体组成，每个实体都有一个已经学到的嵌入。函数和分别根据模型获取实体作为头部或尾部时的预期位置。在[3]中，通过仅考虑作为头部实体出现的三元组来简化了这个过程。

然而，这些方法有一些缺点。首先，如[21]中指出的，初始化可能会将新实体放置在与图中其他元素的预期位置附近，这会降低之前的预测性能。这暴露了现有初始化策略的第一个限制，因为它们可能会干扰之前学到的表示。
更重要的是，这些方法依赖于找到函数和的可能性。对于一些简单的翻译嵌入方法（如TransE），这可能是简单的，但对于其他方法可能不行。例如，像TransH [23]或TransF [24]这样的模型不使用可以唯一识别预期嵌入的可逆评分函数，而在其他模型（如TransD [25]）中，获取预期嵌入需要解决一个欠定的方程组。语义匹配KGE模型没有必须满足的几何关系，而是通过给真实三元组更高的分数来优化KGEs。因此，除了需要可逆评分函数之外，还必须对嵌入的范数（例如）施加额外的硬约束，以允许找到解决方案，这些约束通常不是严格执行的，但通过正则化来鼓励。当KGE模型基于神经网络时，这个问题变得更加严重，因为除了有数千个参数之外，通常还使用不可逆的组件（如卷积或激活函数（例如ReLU [26]），这使得推导出封闭形式的解析解变得不可行。这就是ConvE [27]和ConvKB [28]的情况。这揭示了第二个限制：现有的初始化策略本质上是模型依赖的，并且不能跨KGE家族泛化。
相比之下，我们提出的初始化直接解决了这些限制。首先，它是模型不可知的，因为它不依赖于可逆评分函数的存在或模型特定的几何假设。其次，它通过不将新实体强制放入从单个三元组派生的预定义位置来减少与现有嵌入的精确干扰。第三，当更新量较小时，它仍然适用，因为它不依赖于新实体观察到的三元组数量。相反，它利用之前学到的嵌入以及KG模式来产生稳定且可泛化的初始化。

3. 基于模式的KGE初始化
本节介绍了所提出方法的初步内容和细节。本文中使用的符号含义在表1中进行了总结。
表1. 符号描述
| 符号 | 描述 |
|-----------------|-----------------------------------------|
| N | 快照数量 |
| triplet_set | 三元组集合 |
| entity_set | 实体集合 |
| relation_set | 关系集合，实体和关系，以及它们的嵌入 |
| snapshot | 快照 |
| embedding_model | 嵌入模型 |
| loss_function | 三元组合理性的损失函数，由KG的模式给出 |
| centroid_embedding | 均值中心嵌入 |
| standard_deviation | 均值中心的标准差 |
| weight | 分配给随机扰动的权重 |
| random_vector | 从正态分布中采样的随机向量 |
| evaluation_metric | 使用snapshot进行训练后的评估指标 |

3.1. 初步介绍
知识图谱（KG）是一组三元组，其中和分别表示实体和关系的集合。每个三元组由头部实体和尾部实体以及一个关系组成。由于KGs通常会随时间演变，它们可以表示为一系列快照，每个快照都在前一个快照的基础上扩展，即，，和。如[10]、[29]、[30]中所讨论的，我们考虑关系集合保持不变的情况。这反映了常见的现实世界场景，并被持续KGE方法采用，因为关系的变化较少且与KG模式的变化相关[31]。在快照中新引入的三元组和实体分别表示为和。

知识图谱嵌入
KGEs是KG中实体和关系的低维向量表示。我们将实体的 -维嵌入表示为，关系的嵌入表示为。这些向量的元素是潜在特征，基于它们在KG中的交互捕获实体和关系的结构和语义属性。这些嵌入存储在实体嵌入矩阵和关系嵌入矩阵中。为了获得这些表示，需要在一组三元组上训练嵌入模型。每个三元组都被分配一个模型依赖的合理性分数，该分数用于模型的损失函数中以优化嵌入矩阵的参数。

在持续学习设置中，首先通过训练嵌入模型来学习基础快照（即快照0）中的实体和关系的KGEs，从而获得嵌入矩阵。当新的三元组在时间步到达时，应该为新引入的实体学习嵌入，同时更新现有实体和关系的嵌入。为此，使用持续学习函数（例如，微调、LKGE或incDE），这些函数通过各种技术（例如，正则化、重建或蒸馏项）扩展损失函数（2）：
其中通过将现有实体的嵌入和新实体的初始化嵌入相加得到。后者由表示，这是应用于任何先前快照中未出现过的实体的初始化策略的输出。因此，其中表示沿实体维度的连接。

KG中的灾难性遗忘
灾难性遗忘是指在用新数据更新模型时丢失先前获得的知识。在KGE的背景下，模型学到的知识通常通过检查模型是否给真实三元组分配比其任何损坏版本更高的合理性分数来评估。损坏的三元组是通过错误地替换头部或尾部实体获得的（即，替换不会产生另一个来自KG的真实三元组）。因此，为了清晰起见，仅考虑尾部替换，给定时间步的三元组，如果：
（3）
那么，在时间步可能会由于获得的嵌入和的不希望的变化而发生灾难性遗忘：

3.2. 基于模式的初始化
我们提出了一种适用于非静态KG中实体嵌入的模型不可知的初始化策略。这种策略在引入新实体的每个增量学习步骤中应用，使其成为持续学习流程的重复组成部分（见图3）。给定时间步的新快照和新的三元组，我们旨在使用KG的模式和之前学到的嵌入来初始化新实体的嵌入。因此，由于它不重用或重放来自先前快照的训练三元组，因此不会在它们之间引入数据泄露，这是持续学习中的一个关键考虑因素。这些初始化的嵌入作为任何持续KGE训练方法的输入。

下载：下载高分辨率图像（342KB）
下载：下载全尺寸图像
图3. 使用新信息更新KGE的整个过程。橙色和蓝色向量分别代表Genre和Movie类别中实体的现有嵌入。红色向量是新电影Dune的初始化嵌入。更新后的KGEs产生新的嵌入Dune*和Sci-Fi*。
让表示KG的模式，它定义了实体类型（即类别）。这些类别代表实体所属的语义类别（例如，Person、City或Organization）。每个实体与一组类别相关联，其中是在中定义的所有类别的集合。例如，对应于Leonardo da Vinci的实体可以与类别集合相关联，反映了模式中定义的多个语义角色。
当在快照中向KG添加新实体时，我们希望初始化其嵌入以反映它所属类别的潜在信息，这些信息包含在现有的KGEs中（即）。为此，我们首先根据属于它的实体计算每个类别的代表性嵌入。具体来说，对于每个类别，我们将其均值中心嵌入定义为属于该类别的所有实体的嵌入的平均值：
（5）
为了捕捉同一类别中实体之间的变异性，我们计算来自类别的嵌入的逐元素标准差：
（6）
其中表示元素间的乘法。
这两个量用于生成信息丰富但多样的初始嵌入。具体来说，新实体的初始化嵌入定义为其所属类别的平均均值中心，加上一个小的随机扰动：
（7）
其中控制扰动的幅度，是为每个独立采样的随机向量。所提出方法的伪代码见算法1。
算法1 新实体的基于模式的初始化
这种初始化确保实体用它们所属类别的潜在信息进行初始化，而随机组件防止了退化的初始化（例如，具有相同类别成员资格的实体具有相同的嵌入），这可能导致不希望的行为[21]。
一旦新实体的嵌入被初始化（即），任何持续学习函数（见方程（2））都可以用来用中包含的新信息更新整个嵌入空间。
这种初始化的目的是减轻灾难性遗忘并最大化知识获取。为此，所提出的初始化旨在将新实体放置得更接近它们可能的最终表示。虽然初始化本身不是一个优化过程，但它旨在减少初始嵌入和最终嵌入之间的预期距离，定义为：
（8）
同时，我们假设这种有根据的初始放置将自然提高中三元组的初始合理性分数，定义为：
（9）
通过这样做，我们最小化了由损失函数（即，处理涉及新实体的三元组时的大梯度）引起的大调整对现有嵌入和的不希望的干扰，这会导致灾难性遗忘：
（10）
在4.5节中，我们进行了实验来验证（8）、（9）、（10）中表达的假设。时间复杂度分析
所提出的初始化包括两个主要步骤（见算法1）。类中心点和方差计算需要遍历实体并聚合每个类的嵌入，总成本为，其中是每个实体的平均类数。对于新实体的初始化，复杂度为，因为每个新实体都需要一个嵌入。因此，总体复杂度为：
(11)
由此可以得出几个观察结果。首先，复杂度与实体数量和嵌入维度成线性关系，并且通常很小。此外，类中心点的计算是第一步也是最耗时的步骤，因为一般来说。然而，中心点可以在更新之间预先计算，因为它们不依赖于新信息，从而最小化有效的初始化时间。另外，初始化必须针对每个快照进行一次，与KGE训练相比，这是一个可以忽略的成本，因为KGE训练的成本随着三元组数量的增加而增加，并且根据训练周期的数量重复多次（见第4.3.1节）。

4. 实验
本节通过解决以下研究问题（RQs）来展示我们初始化策略的实验评估：
• RQ1：对持续学习策略的影响。与现有的初始化方法相比，所提出的初始化如何影响不同持续学习方法的性能？
• RQ2：对训练效率的影响。所提出的初始化是否减少了所需的训练周期总数和总体训练时间？
• RQ3：对不同嵌入模型的影响。所提出的初始化在各种KGE模型中的泛化能力如何？
• RQ4：语义初始化的有效性。用语义潜在信息初始化实体是否增加了新三元组的初始合理性，并减少了训练过程中的嵌入移动，从而验证了设计假设？性能提升是由于语义信息还是由于与现有嵌入的接近性？
• RQ5：初始化的鲁棒性。初始化对噪声或不完整的KG模式有多大的鲁棒性？

4.1. 实验设置
为了解决研究问题，实验是在几个增量数据集上进行的（见第4.1.1节）。每个数据集包括一个基础快照，用于获取初始的KGE，随后是不同大小的增量快照。每个快照包含一个测试集，用于计算评估指标。在每个增量快照中，KGE由之前见过的实体的更新嵌入和新实体的新嵌入组成。此外，每个持续学习步骤包括三个阶段。首先，根据特定的初始化策略初始化新实体的嵌入（见第4.1.3节）。接下来，使用训练和验证集根据持续学习方法更新嵌入（见第4.1.4节）。最后，使用定义的指标（见第4.1.2节）在对应于基础快照和每个增量快照的测试集上评估结果。这三个阶段重复进行，直到处理完所有增量快照。
所有实验的实现细节和数据集都可以在提供的仓库中找到。

4.1.1. 数据集
我们的方法关注于新信息逐步添加的场景，每次更新相对于原始KG来说都相对较小。为此，首先从FB15K-237 [32]（一个来自Freebase [33]的KG完成基准数据集）创建了三个不同的数据集。该数据集是按照最先进的持续学习方法 [3]、[4]、[6] 的方法构建的。每个数据集包括一个初始三元组集（快照0），作为基础KG，以及4个额外的集合（快照1-4）。这些集合是不相交的，因此快照之间不会发生数据泄露。这三个不同的数据集，命名为FBinc-{S,M,L}，共享相同的基础KG（即快照0，包含46,300个三元组和2909个实体），但在所有更新后，三元组数量分别增加了2%、12%和25%。这模拟了更新较小的场景，因此必须用较少的信息学习新元素的嵌入，并能够评估更新大小的效果。此外，还从EventKG [34]（一个模拟历史和当代事件的真实世界KG）创建了另一个增量数据集EventInc。鉴于其时间信息，创建了一个增量KG，其中快照遵循事件的时间顺序。为此，只考虑了2000年之后发生的事件。然后，使用代表第一个事件及其相关实体（例如，地点、人物等）的实体创建了基础快照。这个过程重复进行，以创建每个包含比基础快照多2%到3%新实体的时间顺序快照。这生成了一个具有挑战性的增量数据集，其中每个新实体的新三元组比例是FB15k派生数据集的十分之一，并且真正包含了时间快照。对于所有数据集，每个快照都适当地分为训练集（60%）、验证集（20%）和测试集（20%）。在FB15K-237派生的数据集中，通过将实体映射到DBpedia并从DBpedia本体 [35] 中提取相关类型来获取类成员资格，而在EventInc中，实体类是由EventKG提供的。

4.1.2. 指标
初始化的效果通过链接预测（LP）任务来评估，这是在KGE评估中通常的做法 [36]。LP旨在通过排名KG中所有实体在缺失位置的合理性来预测不完整三元组中的缺失实体（例如，[head, relation, ?] 或 [?, relation, tail]）。因此，使用常见的LP指标 [2] 来评估结果嵌入的预测性能，这些指标将在使用最终快照训练后通过聚合所有测试集的结果来报告：
• Hits@k 表示正确答案排在前 k 位的不完整三元组的比例。实验中使用的 k 值分别为1、3和10。
• 平均倒数排名（MRR）衡量正确实体被预测的提前程度，通过对所有不完整三元组中的排名取平均值。
此外，还采用了设计用于监控神经网络 [37] 中新任务学习的不同指标来监控在添加额外快照时KGE中的知识保留和获取。这些指标是从之前定义的LP性能指标（本工作中的 Hits@3）派生出来的，其中表示在使用快照 j 训练后快照 i 上的评估指标值：
• 量化随着新快照的引入而保留的旧知识。在每个快照上训练后，模型在基础KG测试集上进行评估，并将评估指标与其初始性能进行比较。这种选择反映了我们的持续学习设置，因为在后续快照中引入的更新较小，因此在初始快照上保持性能至关重要。
• 量化新知识的获取。它是通过在新快照引入后仅对新测试三元组集的模型平均预测性能来计算的。这使得可以独立评估新知识的获取，特别是在更新相对于现有KG三元组较小时尤为重要。

4.1.3. 初始化策略
为了评估我们的提议，我们区分了持续学习方法和初始化策略，后者决定了新实体的嵌入的起始状态。虽然大多数持续学习文献使用随机初始化，但我们将初始化视为一个模块化组件。我们提出的初始化方法（即Schema初始化）已与以下方法进行了比较：
• 随机初始化：这种方法作为基线，涉及使用Xavier初始化来初始化新嵌入。这也是所有初始化策略中快照0中初始化嵌入的机制，因为之前没有知识。
• 模型初始化：这是流行持续方法 [3]、[21] 中使用的方法，其中嵌入根据它们使用的KGE模型TransE的预期位置进行初始化。尽管模型初始化是这些持续方法的一个组成部分，但我们将其作为与其他持续方法结合的独立初始化策略进行评估。

4.1.4. 持续学习方法
为了评估我们提议的泛化能力，通过将其应用于不同的持续学习方法来研究初始化的效果。首先，作为最简单的方法，评估了微调（FT）。然后，检查了扩展微调的通用持续学习方法，即正则化方法EWC [5] 和复习方法EMR [17]。最后，将初始化策略应用于专门为KGE的持续学习设计的方法，具体来说是LKGE [3] 和incDE [4]。由于后者的实现基于KGE模型TransE，我们在持续学习策略中使用了它，以确保可比性，并能够使用Model初始化（由LKGE提出），因为它不能应用于每个KGE模型。关于快照之间的数据泄露，只有复习方法EMR明确地从之前的快照中采样数据以在后续快照中重用。

4.2. 对持续学习方法的影响（RQ1）
表2报告了我们的实验结果，评估了不同初始化方法在各种持续学习方法上的效果。跨持续学习方法和初始化策略共享的基础嵌入是通过调整TransE模型获得的，最佳结果是在学习率为和嵌入维度为时获得的，如 [3] 中所述。对于超参数调整的增量阶段，学习率从和扰动参数从中选择。报告的结果是5次运行的平均值，符合CKGE文献 [3]、[4] 中的标准做法。最终的超参数配置和标准差测量可以在附录A.1中找到。

表2. 在各种持续学习方法上评估初始化策略对 Hits@3、知识保留和知识获取的影响。
方法 FBinc-S FBinc-M FBinc-LEventInc
MRRH@3 MRRH@3 MRRH@3 MRRH@3
Retrain–0.302 0.354––0.302 0.352––0.300 0.351––0.191 0.265––
FTRand.0.204 0.249 0.779 0.321 0.193 0.232 0.735 0.254 0.187 0.220 0.723 0.284 0.191 0.251 0.969 0.251
Model0.246 0.297 0.871 0.532 0.258 0.306 0.914 0.302 0.237 0.276 0.825 0.301 0.195 0.248 0.980 0.112
Schema0.265 0.316 0.920 0.536 0.282 0.335 0.964 0.332 0.268 0.313 0.920 0.329 0.196 0.257 0.969 0.332
EWCRand.0.232 0.276 0.838 0.284 0.232 0.268 0.809 0.284 0.259 0.301 0.922 0.310 0.197 0.256 0.973
Model0.264 0.312 0.912 0.465 0.274 0.323 0.948 0.273 0.265 0.310 0.905 0.358 0.194 0.247 0.975 0.125
Schema0.280 0.330 0.953 0.511 0.286 0.333 0.969 0.314 0.266 0.311 0.932 0.392 0.207 0.267 0.990 0.320
EMRRand.0.202 0.244 0.771 0.311 0.196 0.232 0.746 0.239 0.186 0.217 0.715 0.276 0.182 0.241 0.931 0.290
Model0.249 0.296 0.872 0.494 0.264 0.311 0.930 0.287 0.238 0.276 0.832 0.306 0.196 0.251 0.989 0.102
Schema0.267 0.317 0.927 0.514 0.282 0.330 0.958 0.331 0.299 0.315 0.928 0.319 0.201 0.983 0.302
LKGERand.0.243 0.285 0.844 0.279 0.294 0.830 0.317 0.286 0.333 0.953 0.340 0.219 0.271 0.971 0.294
Model0.290 0.342 0.953 0.552 0.297 0.348 0.972 0.363 0.290 0.339 0.938 0.378 0.226 0.277 0.978 0.269
Schema0.293 0.343 0.964 0.513 0.298 0.346 0.978 0.331 0.299 0.350 0.962 0.382 0.234 0.285 0.992 0.340
incDERand.0.285 0.339 0.875 0.358 0.299 0.353 0.911 0.412 0.301 0.358 0.911 0.439 0.222 0.281 0.964 0.314
Model0.309 0.368 0.938 0.551 0.311 0.369 0.925 0.463 0.308 0.365 0.918 0.424 0.208 0.261 0.910 0.263
Schema0.315 0.376 0.960 0.539 0.316 0.378 0.942 0.491 0.308 0.368 0.424 0.208 0.261 0.910 0.263
对于FBInc数据集，第一个值得注意的观察是，使用非随机初始化策略（Model和Schema）在所有指标、持续学习方法和数据集上都提高了性能，与依赖随机初始化相比。具体来说，适当的初始化有利于新知识的获取（），同时保留旧知识（），而非正则化方法（即微调和EMR）是受益最多的持续学习技术。例如，在比较Random和Schema初始化时，在EMR中，FBinc-S、FBinc-M和FBinc-L数据集上基础知识的保留分别增加了20%、28%和30%，同时新知识的获取也分别增加了65%、38%和16%。因此，我们观察到，增量更新越小，Schema初始化在提高新知识获取方面比在知识保留方面更有优势。相反，对于较大的更新，其中新信息可以更容易学习，Schema初始化在减轻灾难性遗忘方面起着重要作用。因此，当使用非正则化学习方法时，Schema初始化在数据集大小上优于Random和Model初始化。在EventInc数据集中也观察到了这一趋势，其中Model初始化甚至被Random初始化所超越，因为它无法获取新信息，因此它保留了旧知识。这种行为可以通过EventInc数据集中每个新实体的新三元组比例较低来解释，这进一步加剧了由于大多数三元组包含相同关系而导致的信息不足的初始情况。
对于正则化方法（即EWC、LKGE和incDE），在EventInc数据集的所有指标上都看到了改进。对于FBinc数据集也观察到了这种行为，尽管随着增量更新的增大，影响变得不那么显著。具体来说，对于LKGE（为其设计了Model初始化的持续学习方法），在Model和Schema初始化中观察到了可比的性能。特别是对于较小的数据集，使用Model初始化获得了更好的结果，因为它明确地将新实体放置在LKGE模型期望的位置。然而，这些好处并不适用于其他持续学习方法，正如第2节所讨论的，Model初始化缺乏灵活性，因为它是为TransE评分函数专门设计的，可能与其他KGE模型不兼容。
关于扰动参数，它在较大的增量数据集中起着更重要的作用，这可以归因于添加的新实体较少时嵌入退化减少。训练周期中指标的演变（RQ2）如图2所示，更有效的嵌入初始化可以减少其最终值之间的距离，从而缩短训练时间并最小化现有嵌入的不希望发生的变化。为了验证这一假设，我们进行了一项实验，将增量快照的训练周期数量限制在10到200之间的不同值。实验结果如图4所示，针对的是FBinc-M数据集（具有中等大小的增量），该数据集使用了在之前的实验中获得的最佳超参数。FBinc-S和FBinc-L数据集也获得了类似的结果（见附录B中的图B.1和图B.3）。下载：下载高分辨率图像（827KB）下载：下载全尺寸图像图4. 在FBinc-M数据集上，不同初始化策略和持续学习方法下训练周期中的指标演变。虚线表示收敛。对于使用Schema初始化的情况，不仅获得了更多的新知识，而且获取速度也比常用的Random初始化快得多。特别是在收敛时（见虚线），使用Random初始化获得的新知识显著较少（从LKGE的6%减少到incDE的39%），即使在收敛之前也是如此（例如，仅考虑50个周期）。此外，除了LKGE方法（该方法本身就集成了初始化功能）之外，使用Schema初始化在更少的周期内就能获得知识。正如假设的那样，结果与初始化的初始效果有关。也就是说，通过初始化直接获得的知识越多，从训练中需要获得的知识就越少，从而对旧嵌入的不希望发生的中断就越少（例如，在微调过程中，随着新信息的获得，会有较大的下降）。此外，在所有持续学习方法中，Schema初始化的收敛速度都更快。与Random初始化相比，除了EWC方法表现相似外，其他方法的收敛周期数减少了2.16到2.67倍。由于这也适用于其他数据集，即使预测性能的提升不那么显著，训练时间的减少也使得Schema初始化变得有益，尤其是因为它适用于任何KGE模型。4.3.1 时间分析我们进行了时间分析（见图5），报告了初始化时间（我们认为Random初始化的时间可以忽略不计）和每个周期的平均时间，以微调作为下限。为了评估更新大小的影响，结果使用了FB15k-237派生的数据集进行展示。可以观察到，Schema初始化比Model初始化更快，且具有更好的可扩展性，并且比单个训练周期快得多。鉴于训练涉及多个周期但只需要一次初始化，并且适当的初始化减少了达到收敛所需的周期数，因此初始化的成本在整个训练过程中并不显著。下载：下载高分辨率图像（194KB）下载：下载全尺寸图像图5. Model初始化和Schema初始化在微调训练时间方面的比较。此外，基础KG的大小仅影响维持质心指标（即均值和标准差）。此操作应在KG更新之间进行，因此不会影响初始化的效率，并且计算量很小（例如，在我们的案例中，所需时间比单个训练周期少一个数量级）。4.4 不同的KGE模型（RQ3）为了便于比较，之前的实验使用了TransE作为KGE模型。之所以选择这个模型，是因为最初为TransE提出的Model初始化不能扩展到每个模型，而且LKGE和incDE都是基于TransE的。然而，由于所提出的Schema初始化与模型无关，因此也在翻译和语义KGE模型[38]中对其有效性进行了测试。实验是通过使用微调作为持续学习方法来比较Schema初始化和Random初始化来进行的，这使我们能够直接利用KGE库中可用的各种模型，如PyKEEN[39]。结果如表3所示，这些结果是通过调整每个KGE模型获得的（具体配置见附录A.2）。表3. 不同KGE模型和初始化策略对微调性能的影响，报告了Hits@3、知识保留率和知识获取率。家族模型初始化FBinc-SFBinc-MFBinc-L事件IncH@3H@3H@3H@3翻译TransHRandom0.2720.8090.4710.3140.9090.2360.2680.8090.2600.3271.0000.065TransHSchema0.3220.9010.5160.3430.9440.3440.3330.9180.3280.3461.0000.166旋转Random0.2120.5670.2310.2660.6330.2030.3000.7140.3590.2610.7450.096旋转ESchema0.3510.8940.2790.2820.7960.2460.3100.7350.4310.2610.7200.170TransRRandom0.1520.7190.2540.1390.6450.1980.0860.4380.2320.1620.9050.134TransRSchema0.2130.9010.2450.2170.9360.1930.1650.7170.2460.1680.9550.141语义DistMultRandom0.2680.7820.2570.3170.9210.1460.3050.9450.1480.2790.9580.087DistMultSchema0.3300.9420.2740.3460.9730.2320.3310.9750.2230.2850.9790.174HolERandom0.2520.8990.1270.2630.9570.0940.2350.9380.1100.1530.9840.079HolESchema0.2540.9150.3170.3030.9950.2800.2770.9710.2410.1651.0000.145ProjERandom0.3510.9940.1760.3180.9640.1810.2710.9190.1340.2130.9600.060ProjESchema0.3520.9940.2380.3260.9660.2470.2810.9190.1900.2170.960对于FBinc数据集，总体而言，模型从Schema初始化中受益，这增强了知识保留率、知识获取率或两者都有所提高。重要的是，当其中一个指标改善时，另一个指标也会得到保持。例如，在HolE中，所有数据集的 Hits@3 都提高了一倍以上，而知识保留率也有所改善。在那些在Random初始化下会经历大量灾难性遗忘的模型中（即RotatE和TransR），Schema初始化减轻了这些效应。对于那些难以获取新知识的模型（即ProjE），Schema初始化解决了这一限制，同时保持了知识保留率。最后，对于表现最好的模型TransH，Hits@3提高了11%，知识保留率分别提高了4%和13%，而对于FBinc-S、FBinc-M和FBinc-L数据集，分别提高了9%、46%和26%。对于EventInc数据集，Schema初始化一致地提高了知识获取率，同时保留了旧知识。唯一的例外是RotatE，正如在FBinc数据集中看到的那样，无论使用哪种初始化方法，它都倾向于经历大量的灾难性遗忘，但使用我们的Schema初始化时，它只能在保留过去知识的同时学习新信息。4.5 验证语义初始化（RQ4）在本节中，我们验证了知情初始化背后的设计假设，并检查观察到的收益是由于转移的语义信息还是仅仅由于嵌入的暖启动初始化。4.5.1 验证设计假设如第3.2节所解释的，Schema初始化基于这样一个假设：通过用语义潜信息初始化实体，三元组的初始合理性得分将高于随机初始化时的得分（见方程（9））。这应该减少对旧实体嵌入的干扰和必要的调整，从而减少对新引入实体嵌入的训练时间。为了评估这种效果，我们在最大的数据集FBinc-L上进行了实验，因为在这里更容易观察到影响。具体来说，在对第一个增量快照进行训练后，我们测量了所有持续学习方法的旧实体的平均干扰程度和新实体的移动程度。使用第一个增量快照是为了量化初始化效果，而不考虑错误通过快照的传播。如表4所示，对于所有持续学习策略，与Random初始化相比，Schema初始化使新实体的移动程度减少了三倍以上，同时与Model初始化相比也提高了结果。对于旧嵌入的变化，对于非正则化方法（即微调和EMR），改进是显著的，但正如预期的那样，正则化程度越高的方法，改进效果越不明显。表4. 量化FBinc-L数据集的第一个增量快照上不同持续学习方法和初始化策略对旧嵌入的干扰程度和新实体的移动程度。方法初始化FTRandom0.1760.090Model0.0880.054Schema0.0500.038EWCRandom0.2310.035Model0.1900.014Schema0.0780.014EMRRandom0.1750.090Model0.0880.053Schema0.0420.031LKGERandom0.3360.012Model0.0930.012Schema0.0720.011incDERandom0.3690.011Model0.2000.014Schema0.0980.011最后，我们还计算了模型在持续学习开始之前为新三元组分配的平均初始合理性得分。这些结果不依赖于持续学习策略，如表5所示。再次证实了方法的假设，Schema初始化获得了比Random初始化更好的初始合理性得分。此外，正如预期的那样，Model初始化由于显式地根据模型的评分函数放置嵌入，因此得分更高。然而，与之前的实验一致，仅以这种方式初始化的嵌入往往比使用Schema初始化获得的嵌入距离其最终优化位置更远（见表4）。因此，这种更高的初始得分并没有转化为最终性能的提高（见4.2 对持续学习方法的影响（RQ1）和4.3 训练周期中指标的演变（RQ2））。表5. 不同初始化技术为新三元组分配的平均初始合理性得分。初始化平均Random0.574Model0.688Schema0.641总之，这些结果证实了我们的假设，与Random初始化相比，用语义潜信息初始化实体（即Schema）不仅提高了新三元组的初始合理性，还减少了训练过程中的嵌入移动，从而减少了对旧实体的干扰。4.5.2 评估语义贡献我们的Schema初始化方法将嵌入放置在嵌入空间中与它们共享语义的现有元素附近。为了确保这些收益不是由于偶然性或嵌入空间中的偶然接近性，以及验证它们确实是由于可用的语义信息，我们使用了两种额外的初始化技术进行了实验，这两种技术将嵌入放置在接近现有元素的位置，但不使用来自模式的信息：•随机质心初始化：它使用从数据集中随机选择的10个实体的嵌入创建的质心来初始化每个实体。•类混合初始化：它随机为每个新实体分配一个类，同样使用类质心。为了更好地观察它们的行为，我们选择了更新最多的数据集（即FBinc-L），并使用微调作为持续学习协议。结果总结在图6中，该图显示了在给定快照更新嵌入后不同测试集的评估情况。可以看出，如果我们关注包含已初始化实体的测试集（即1-4），初始化技术有助于获得良好的初始结果（见图6中的对角线）。然而，在Random质心和类混合初始化中，一旦有新数据到来，这种性能会迅速且显著地下降。例如，对于第一个测试集，Class Shuffling初始化最初获得的0.29 Hits@3得分在仅增加一个快照后降低到了0.13，而对于Random Centroid初始化，得分从0.34降低到了0.21。相比之下，Schema初始化没有性能下降。在其他测试集中也可以观察到类似的行为。因此，对于不依赖于模式语义的两种初始化技术，当引入实体时，最佳放置并不能反映全局潜在知识，因此在引入额外快照时会出现不希望的漂移。通过考虑模式进行初始化，可以明显减轻这种效应，从而获得更好的预测结果。下载：下载高分辨率图像（213KB）下载：下载全尺寸图像图6. 使用FBinc-L数据集通过微调更新嵌入后，不同测试数据集（y轴）的Hits@3评估（x轴）对于Schema、Random Centroid和Class Shuffling初始化。4.6 初始化的鲁棒性（RQ5）在某些领域，KG模式可能是不完整的或可能包含错误的类分配。在本节中，我们研究了在这些情况下Schema初始化的鲁棒性：•不完整的模式：我们以给定的概率移除一个实体的类。•噪声模式：我们以给定的概率为实体分配一个随机类。图7展示了随着这种概率增加，Hits@3指标的演变。下载：下载高分辨率图像（186KB）下载：下载全尺寸图像图7. 随着噪声或丢弃率的增加，对FBinc-L数据集进行微调时的Hits@3评估。正如预期的那样，逐渐从KG中移除类（见图7中的红线）会导致性能逐渐下降。也就是说，当移除类的概率为0时，性能处于Schema初始化的水平，而当所有类都被移除时，性能则稳定下降到Random初始化的水平。值得注意的是，即使有40%的类缺失，结果仍然优于使用Model初始化获得的结果。在随机分配类以生成噪声KG的情况下（见图7中的紫色线），随着更多实体被损坏（即随着率的增加），性能也会下降。然而，初始化的效果仍然很稳健，因为正确分配的类的存在继续提供有用的信息。5. 结论我们提出了一种新颖且有效的KGE持续学习实体嵌入初始化策略。我们的方法旨在快速整合新信息，同时最小化对现有嵌入的干扰，通过基于KG模式为新嵌入提供一个语义上有所依据的起点。所提出的初始化策略基于这样一个假设：初始嵌入越接近最优嵌入，增量学习过程就越不具破坏性，速度也越快。实验表明，我们的初始化策略具有以下优势：
1. 提高了下游任务（即链接预测）的预测性能；
2. 加速了持续学习方法中新知识的获取速度，因此在需要快速响应新信息的场景中尤为有用；
3. 在各种增量学习策略和嵌入模型中均提升了性能，无论采用哪种特定的知识图谱生成（KGE）模型或增量学习技术，这都是一个有效选择。

**CRediT作者贡献声明**
Gerard Pons：撰写初稿、数据可视化、软件开发、方法论设计、实验设计、形式化分析、数据整理、概念构建。
Besim Bilalli：审稿与编辑、模型验证、概念构建。
Anna Queralt：审稿与编辑、项目监督、资源协调、概念构建。

热点排行