DynKGRAG:一个用于动态知识图谱构建以及对数值和文本数据进行多跳查询的框架

《Neurocomputing》:DynKGRAG: A framework for dynamic knowledge graph construction and multi-hop querying over numerical and textual data

【字体: 时间:2026年05月27日 来源:Neurocomputing 6.5

编辑推荐:

  周舒|宣云阳|敖玉轩|范涛|王浩中国江苏省南京市,南京大学信息管理学院摘要从大量非结构化数据中提取结构化、可操作的知识是数据挖掘和知识管理领域的核心挑战。这一挑战主要体现在两个基本问题上:一是数值语义差距,传统方法无法准确捕捉定量值的语义;二是知识碎片化,回答复杂问题需要通过多步

  
周舒|宣云阳|敖玉轩|范涛|王浩
中国江苏省南京市,南京大学信息管理学院

摘要

从大量非结构化数据中提取结构化、可操作的知识是数据挖掘和知识管理领域的核心挑战。这一挑战主要体现在两个基本问题上:一是数值语义差距,传统方法无法准确捕捉定量值的语义;二是知识碎片化,回答复杂问题需要通过多步推理来连接不同的事实。本文介绍了DynKGRAG框架,该框架通过将即时知识图谱构建与强大的多跳查询引擎相结合来弥合这些差距。DynKGRAG由两个核心组件构成:(a) 动态知识图谱(DKG)模块,通过迭代识别、对齐和表示实体及数值,在统一的、对数值敏感的图谱结构中解决数值语义差距问题;(b) 多跳推理模块(MHRM),通过解析复杂查询、构建聚焦子图并执行自适应推理路径来处理知识碎片化问题,从而得出精确答案。为了验证其能力,我们将该框架应用于检索增强生成(RAG)这一具有挑战性的任务。实验结果表明,DynKGRAG在多个基准测试中取得了先进的性能,证明了其在处理复杂真实世界数据时的有效性。

引言

在信息时代,从不断扩大的非结构化文本海洋中提取结构化知识是数据挖掘和知识管理的基本挑战[1]、[2]。尽管已经取得了显著进展,但仍存在一个关键问题:有效处理文本中嵌入的数值信息[3]、[4]。财务报告、医疗记录和科学论文中的数据包含大量定量值,其精确语义对于正确解释和决策至关重要[5]、[6]。现有系统往往难以将数字视为简单的文本字符串,无法捕捉由其单位、量和上下文关系定义的真实含义,这严重限制了它们在复杂分析任务中的实用性。
为了解决知识密集型任务,出现了两种主导范式,但两者在处理数值数据和复杂推理方面都存在显著缺陷。一方面,检索增强生成(RAG)模型[7]、[8]利用密集向量检索的力量将语言模型与事实文档相结合。然而,它们依赖于标准文本嵌入,因此在语义上对数值细微差别“视而不见”[9]、[10]。例如,如图1(左)所示,‘血压138/89毫米汞柱’和‘142/91毫米汞柱’的嵌入可能非常接近,掩盖了临床上的显著差异。这导致了我们称之为(1)数值语义差距的问题[3]。另一方面,传统的知识图谱(KG)提供了结构化表示,但通常静态且创建成本高昂。更重要的是,它们通常将数值视为简单的文字,将数字与其单位和上下文分离,从而削弱了它们支持定量推理的能力。这导致了(2)知识碎片化问题,尤其是在需要跨文本和数值事实进行多步推理的查询中,如图1(右)所示。
虽然基于解码器的先进Transformer在通用文本生成方面表现出色,但仅依赖其隐式参数化知识进行复杂分析任务存在关键限制。首先,端到端生成模型仅将数值视为离散的文本标记,无法准确感知其量级,经常在金融等严格领域导致严重的数值错误。其次,它们的隐式推理过程不透明,且在处理碎片化和噪声较大的上下文中的长链多跳推理时容易出错或产生幻觉。最后,更新LLM参数中的特定动态事实需要计算成本高昂的微调。因此,除了依赖隐式生成外,设计一个显式的、基于管道的框架作为生成模型的结构化外部辅助工具是必要的。为了解决上述挑战,本文提出了一个动态知识图谱检索框架——DynKGRAG,其关键概念差异如图2所示。DynKGRAG不仅仅是RAG的渐进式改进,而是一种新的方法,它将即时知识库构建与表达力强的多跳查询引擎相结合。DynKGRAG通过引入两个关键模块从根本上增强了RAG:动态知识图谱(DKG)模块和多跳推理模块(MHRM)。DKG模块直接解决了从非结构化文本中获取和表示结构化、具有数值感知的知识的问题。MHRM作为强大的查询引擎,用于处理这个动态构建的知识图谱,满足复杂多跳推理的需求。
本文的贡献如下:(1) 我们引入了动态知识图谱(DKG)模块,这是一种从文本中即时构建知识库的新方法,通过动态对齐和更新实体及数值来创建对数值敏感的表示。(2) 我们提出了MHRM,它能够高效地对DKG进行多跳结构化查询。通过构建目标子图并采用自适应路径查找算法,它能够有效回答复杂问题,同时避免不必要的计算开销。(3) 实验结果表明,我们的框架在多个基准数据集上取得了显著的性能提升,特别是在处理复杂查询和知识密集型问答任务方面表现优异。

章节片段

知识图谱

知识图谱(KG)在自然语言处理(NLP)[11]、[12]中得到广泛应用,关键应用包括:1) 知识图谱嵌入(KGE),将实体和关系表示为嵌入,用于链接预测等任务[13]、[14]、[15]、[16]、[17]、[18],但常常忽略知识的时间演变[19]、[20];2) 知识图谱补全(KGC),预测KG中的缺失链接[21]、[22]、[23],但在处理复杂模式和演变知识时存在困难[24]、[25];3) 知识图谱问答

概述

为了解决从非结构化文本中提取和推理结构化知识的挑战,特别是包含复杂数值信息的文本,我们提出了DynKGRAG框架。其核心思想是创建一个能够自主构建知识库并对其进行复杂多步查询的强大系统,如图3所示。该框架由两个主要组件组成:用于知识获取和表示的动态知识图谱(DKG)模块,以及多跳

实验

我们进行了一系列实验,全面评估了DynKGRAG框架在解决数值语义差距和知识碎片化这两个核心挑战方面的效果。主要目标是验证两个核心假设:(1) 我们的DKG模块能够通过获取和表示复杂的数值知识有效弥合数值语义差距;(2) 我们的MHRM能够利用这些知识进行多跳推理,从而克服知识碎片化。为此,我们

结论

本文介绍了DynKGRAG,这是一个旨在解决知识管理中两个基本挑战的新框架:数值语义差距和知识碎片化。我们的方法展示了即时构建具有数值感知的知识库并利用它们满足复杂多步信息需求的强大方法。实验结果表明,DynKGRAG在多个基准数据集上取得了先进的性能,验证了其有效性

CRediT作者贡献声明

周舒:撰写——审稿与编辑,撰写——初稿,项目管理,方法论,数据整理。宣云阳:验证,监督,资源管理,方法论。敖玉轩:验证,软件开发,项目管理,方法论,调查。范涛:撰写——审稿与编辑,撰写——初稿,可视化,验证。王浩:项目管理,方法论,调查。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。

致谢

本工作得到了国家自然科学基金(项目编号72574098、72074108)和南京大学中央高校基本科研业务费(项目编号010814370338)以及南京大学社会科学青年人才计划和唐奖学金的支持。

数据和代码可用性

周舒目前正在南京大学信息管理学院攻读信息科学博士学位。他已在ACL、WWW、SIGIR、AAAI、COLING、NLPCC、ICONIP等会议以及IPM等期刊上以第一作者身份发表论文。他的研究兴趣包括检索增强生成、代理模型和大型语言模型。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号