《TRENDS IN FOOD SCIENCE & TECHNOLOGY》:Node-Centric Multi-Source Adaptive Knowledge Aggregation for Low-Resource Taxonomy Completion
编辑推荐:
提出基于多源自适应聚合的MANTA-TC框架,通过节点级注意力机制和共享-特定知识分离模块,有效整合跨领域知识,解决低资源环境下的分类体系完成难题,实验表明性能显著优于基线方法。
Jingnan Zhaoa|Zhijuan Dua
内蒙古大学,呼和浩特,010021,中国
摘要
分类法是组织领域知识的基本结构。分类法完善的目标是在父节点和子节点之间插入新概念,以细化层次粒度,但在资源匮乏的领域中,这项任务受到标签稀缺、节点语义模糊和结构不确定性的挑战。我们提出了MANTA-TC(多源自适应节点中心式分类法完善),这是一个以节点为中心的多源传输框架。MANTA-TC使用局部结构上下文(父节点、兄弟节点和邻居节点信息)对每个节点进行建模,应用节点级别的自适应注意力机制来选择相关的源领域知识,并区分共享语义和领域特定语义。基于最大均值差异(MMD)的跨领域对齐损失确保了跨领域的嵌入一致性。实验表明,MANTA-TC在资源匮乏的环境中,尤其是在非叶子概念插入方面,显著优于现有方法。
引言
分类法作为组织领域知识的基本结构,在信息检索、推荐系统、电子商务和知识管理等领域发挥着核心作用[1]、[2]、[3]。通过是层次关系组织概念,分类法通常形成一个有向无环图(DAG),其中节点代表概念,边表示上位词-下位词关系。这种结构使下游系统能够更好地理解和利用领域知识。随着知识的不断演变,如何在保持层次一致性的同时快速自动更新和完善领域分类法已成为智能知识组织的一个重要研究方向。
与传统的分类法扩展不同,后者仅将新概念作为现有节点的子节点附加,分类法完善允许模型在父节点和其子节点之间插入新概念,从而构建更细粒度的层次结构[4]。如图1(a)、(b)所示,当引入新概念量子计算时,扩展方法只能将其附加到物理下,使其与量子力学并列。相比之下,完善方法可以将其插入物理和量子力学之间,形成层次结构:科学 → 物理 → 量子计算 → 量子力学。这种设置显著增强了分类法的表达能力,但也引入了新的挑战:模型不仅必须确定新概念的适当层次位置,还要保持语义一致性和层次逻辑一致性。
在现实世界场景中,资源匮乏的情况尤为常见。许多新兴领域,如可持续能源、医学成像或跨学科研究领域,其分类法相对较小,标注样本有限,在某些领域中,标记节点的比例甚至低于5%[2]。在这种数据受限的情况下,依赖大规模训练语料库的传统方法往往难以学习稳定的层次语义表示,尤其是在复杂的非叶子概念插入情况下。
为了缓解标记数据的稀缺问题,一些研究尝试引入来自预训练语言模型(PLMs)或大型语言模型(LLMs)的外部知识[5]、[6]。然而,这些模型中编码的知识主要来源于通用领域的语料库,可能与特定领域分类法的层次语义有很大差异。例如,量子态的上位词结构在物理和计算机科学之间完全不同,直接转移容易导致结构错位。此外,PLMs和LLMs通常关注文本语义,而忽略了分类法固有的图结构特征,使得难以确保跨领域的层次一致性。
除了利用预训练模型外,最近的研究还探索了跨领域知识转移,以改善资源匮乏环境下的分类法完善。例如TaxoPro[7]采用基于LoRA的知识分解机制,将源领域知识分为共享部分和领域特定部分,从而实现单源转移。然而,分类法完善具有独特的结构特性,使其不同于一般的图学习任务。分类法是由非对称是关系定义的严格结构化的有向无环图。与一般图领域适应(GDA)中通常假设的均匀图不同,传统的GDA方法隐含地假设跨领域的特征对齐,这可能与细粒度的层次约束相冲突,导致结构错位。因此,直接将传统的多源或GDA方法应用于分类法完善可能会导致性能不佳。
另一个挑战是资源匮乏分类法的极端结构稀疏性。这类分类法往往形成“骨架式”结构,具有有限的上下文信号。在这种情况下,全局转移机制可能会稀释局部层次信息,并引入来自无关源子结构的负面转移。
尽管现有方法在单源场景中取得了一定的成功,但它们仍然面临几个根本性挑战。
(1)单源偏差:由于源领域和目标领域在层次深度、概念分布和语义空间上的差异,依赖单一源领域可能导致语义漂移。例如,在从食品分类法转移到科学分类法时,模型可能会错误地将量子计算插入到化学节点下。
(2)粗粒度转移:现有的跨领域模型通常采用全局参数共享或基于损失的约束,忽略了目标分类法中各个节点的语义角色和结构差异。父节点、兄弟节点和邻居节点在不同节点之间存在显著差异,但全局转移机制无法捕捉这些个性化的结构特征,常常引入冗余或噪声知识。
(3)多源知识整合中缺乏动态选择:
- (a)
实际上,多个高资源分类法(例如,科学、设备、食品)通常包含互补的层次语义信息。然而,当前的研究很少涉及多源协作转移。在没有节点级源选择和知识对齐机制的情况下,模型无法适应性地识别最相关的源领域,导致多源知识利用率低,甚至产生负面转移。
- (b)
此外,多源知识本质上是异构的,包含可转移的共享知识和仅在某些领域有效的领域特定知识。如果在转移过程中不明确区分这些知识,领域特定的噪声可能会干扰共享语义的学习。
为了解决上述挑战,本文提出了一个以节点为中心的多源自适应知识聚合框架(MANTA-TC)。该框架将每个节点视为核心建模单元,并通过局部上下文建模和节点级别的自适应注意力机制实现个性化的跨领域知识转移和整合。具体来说,节点级别的自适应注意力模块允许每个目标节点根据其父节点、兄弟节点和邻居节点选择性地聚合来自多个源领域的知识。此外,引入了一个共享-特定知识分离模块,以明确区分领域不变的共享特征和领域特定特征,有效减轻负面转移。进一步采用基于最大均值差异(MMD)的跨领域知识对齐损失来缓解多源转移中的结构不一致性。如图1(c)、(d)所示,在利用食品和设备分类法的互补知识的同时考虑目标节点的局部上下文时,MANTA-TC可以将量子计算正确插入到物理下,与量子力学建立一致的层次关系。这种比较直观地展示了在资源匮乏的分类法完善场景中以节点为中心和结构感知的多源转移的有效性。
章节片段
分类法完善
自动分类法构建是知识图谱领域的核心任务之一,对于电子商务和网络搜索等应用至关重要。随着领域知识的不断演变,动态更新现有分类法以纳入新概念已成为一个关键挑战。早期研究主要集中在分类法扩展上,即为新查询概念在现有分类法中找到合适的父节点。TMN[4]的工作为此领域奠定了基础
先验知识
分类法是一种用于表示概念之间层次关系的知识结构。形式上,它被定义为定义1。
定义1
分类法可以建模为一个有向无环图:这里,N表示概念节点集,E?N×N表示边集,对于所有?ni, nj?∈E, ni, nj∈N且nj是ni的子概念。
分类法完善(TC)任务,如定义2所示。
定义2
给定一个分类法和一组新概念,对于所有qi∈Q,
方法论
为了有效解决资源匮乏场景下的分类法完善问题,我们提出了MANTA-TC框架。如图2所示,MANTA-TC以节点为中心,通过节点级别的自适应注意力机制对每个目标节点的局部上下文结构进行建模,以实现细粒度的语义交互。它进一步利用多源知识聚合机制整合来自不同高资源分类法的互补层次知识,从而减轻
数据集
我们采用了SemEval-2015任务17 [29]数据集中的三个低资源分类法,这些分类法来自不同的领域:科学、设备和食品,这是资源匮乏分类法完善任务中常用的数据集,作为评估所提模型的目标分类法。我们使用Food和MeSH作为当前目标分类法的源分类法。对于食品数据集,我们使用MeSH和Science作为源领域分类法。MeSH是医学临床领域广泛使用的分类法,是
结论
本文提出了MANTA-TC,这是一种用于资源匮乏分类法完善的多源自适应聚合模型。通过节点级别的动态门控和多源结构对齐,我们的方法实现了跨领域的自适应知识选择和结构感知融合,有效解决了源领域偏差和结构不匹配问题。在科学、设备和食品领域的全面评估中,MANTA-TC的性能优于强大的基线
CRediT作者贡献声明
Jingnan Zhaoa:撰写——原始草案,软件开发,项目管理,方法论,调查,形式分析,数据管理,概念化。Zhijuan Dua:可视化,监督,方法论,调查,资金获取,形式分析,概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。