面向小麦品种审定文本的知识图谱构建与品种关系分析的联合实体-关系抽取(Joint Entity-Relation Extraction from Wheat Variety Certification Texts for Knowledge Graph Construction and Variety Relationship Analysis)

《Electronics》:Joint Entity-Relation Extraction from Wheat Variety Certification Texts for Knowledge Graph Construction and Variety Relationship Analysis

【字体: 时间:2026年06月19日 来源:Electronics 2.6

编辑推荐:

  小麦品种审定信息包含有价值的育种知识,在种质资源管理与育种研究中具有重要作用。然而,大多数审定信息以非结构化文本形式存储,难以支持高效的知识获取与利用。针对此问题,研究人员研究了从小麦品种审定文本中进行联合实体-关系抽取(Joint Entity-Relati

  
小麦品种审定信息包含有价值的育种知识,在种质资源管理与育种研究中具有重要作用。然而,大多数审定信息以非结构化文本形式存储,难以支持高效的知识获取与利用。针对此问题,研究人员研究了从小麦品种审定文本中进行联合实体-关系抽取(Joint Entity-Relation Extraction, JERE)及其在知识图谱构建中的应用。具体而言,在现有字词融合方法基础上,提出用于小麦品种审定文本的联合实体-关系抽取模型(Joint Entity-Relation Extraction for Wheat Variety Certification Texts, JERE-WVCT),以解决字词融合中候选特征无差别引入掩盖关键特征、缺乏对特征的差异化权重分配,以及关系类型严重不平衡的问题。在JERE-WVCT中,设计了一种基于层次过滤与排序(Hierarchical Filtering and Ranking, HFR)的深度字词融合机制,以增强领域特定实体的表示能力。此外,将关系标签作为先验知识引入,以减轻关系类型不平衡的影响并提高模型的三元组抽取能力。实验结果表明,JERE-WVCT在小麦品种审定语料库上取得了96.78%的F1值,优于所有基线模型。基于抽取出的三元组构建了小麦品种知识图谱(Knowledge Graph, KG),并以品种关系分析作为下游应用进行探索。结果证明了所提模型对结构化知识获取的有效性,并支持基于图的小麦品种信息探索。
论文解读:小麦品种审定文本联合实体-关系抽取及知识图谱构建与品种关系分析
研究背景与意义
小麦品种审定信息源自标准化的区域试验和生产试验,系统记录了产量、农艺性状、品质及抗逆性等多维环境数据,通常以文本形式发布。这些非结构化文本蕴含丰富的育种知识与种质资源信息,但因缺乏结构化组织而难以被高效利用。将非结构化审定文本转化为结构化三元组(triple)并构建知识图谱(Knowledge Graph, KG)是实现小麦种质资源深度利用的有效途径。然而,小麦品种审定文本具有术语密集、多关系共存、实体跨度大、数值与自然语言混合表达等特点,导致实体边界模糊、关系重叠(overlapping relations)及关系类型呈长尾分布(long-tailed distribution,即少数高频关系如"易感病性"含10876例,低频关系如"粒形"仅643例、"成熟期"仅843例)等严重不平衡现象,现有通用领域联合抽取方法在此垂直领域性能显著下降。生成式预训练模型虽有少样本能力,但存在输出格式不稳定和幻觉问题;流水线(pipeline)方法存在错误传播;已有联合抽取方法未充分考虑垂直领域术语特性与关系不平衡问题。因此,研究人员以小麦品种审定文本为对象,提出改进联合实体-关系抽取模型JERE-WVCT并进行知识图谱构建与品种关系挖掘,相关工作发表于《Electronics》。
主要关键技术方法
研究人员基于CasRel框架构建JERE-WVCT模型,使用自建小麦品种审定数据集(Wheat Variety Certification Dataset, WVCD),来源于中国种业大数据平台,经清洗、分句(≤250字符)、人工三轮标注(Fleiss' Kappa=0.853)并按品种隔离划分训练/验证/测试集以防数据泄漏。关键技术包括:(1)基于层次过滤与排序(Hierarchical Filtering and Ranking, HFR)的深度字词融合模块——通过小麦种质词嵌入表匹配字符级候选词,按全域词频、BERT上下文语义相似度、词字符长度三级优先级排序筛选后,经带双线性权重矩阵的注意力机制加权融合字词向量,再送入BERT Transformer编码器与BiLSTM编码;(2)关系标签作为先验知识的嵌入机制(Relation Embedding, RE)——用BERT逐字编码关系标签并求和得到关系向量,计算与句子词的注意力得分动态调整关系表示,拼接至尾实体解码层;(3)基于Focal Loss改进的带关系权重损失函数——按关系样本数倒数归一化设置αj,调制因子γ=2,加大难分类样本与低频关系的损失贡献。经参数实验确定字词融合置于BERT第1层Transformer后效果最优,每字符匹配候选词阈值m=3最优。最终以Neo4j存储三元组构建KG,应用Leiden算法做社区发现(community detection)。
研究结果
2. Joint Extraction Model for Wheat Variety Certification Texts(小麦品种审定文本联合抽取模型)
研究人员在CasRel基础上引入HFR模块与关系嵌入先验知识模块构建JERE-WVCT。HFR模块从融合通用域与小麦种质域(FastText训练)的词嵌入表(20300词条,维度200)中为每个字符检索候选词,经三级排序(全局词频>上下文语义相似度>词长,少则PAD多则截断至m)后输入注意力融合,解决原有字词融合无差别引入噪声与忽视关键特征问题。关系嵌入模块将关系标签BERT编码字符求和得关系向量,经与句子隐状态的注意力计算生成加权的关系统计表示,与头实体向量拼接送入尾实体解码,使模型关注特定关系语义约束。损失函数改为带关系类别权重αj与调制因子γ=2的Focal Loss,缓解长尾分布导致的偏向高频关系问题。
3. Model Evaluation and Results Discussion(模型评估与结果讨论)
3.1. Experiment Settings(实验设置)
数据集含公开DuIE及自建WVCD(来自农业农村部种业大数据平台,预处理后11681句,76283实体,73670关系,37类关系)。按品种整体分配至训练/验证/测试集防泄漏,人工标注Fleiss' Kappa=0.853。采用BERT-base-chinese,Adam优化器,lr=1×10?5,batch size=4,训练50 epoch,宏平均(macro-averaging)精确率(Precision, P)、召回率(Recall, R)、F1值评估,三元组严格精确匹配判定正确。
3.2. Parameter Settings and Analysis(参数设置与分析)
实验表明:字词融合置于BERT第1层Transformer encoder后F1最高(92.78%),越靠后越低(第12层仅92.23%),说明早期融合更利于字词深层交互;每字符候选词阈值m=3时F1最优,m=2信息不足,m>3引入PAD噪声致性能下降。
3.3. Results and Analysis(结果与分析)
JERE-WVCT在WVCD上取得P=96.37%、R=97.19%、F1=96.78%,较CasRel提升F17.77个百分点,较WGIE-DCWF提升1.09个百分点;在DuIE上亦优于各基线。对低频关系(伸展区、成熟期、粒形、叶色),JERE-WVCT比WGIE-DCWF F1分别提升0.83、1.16、4.02、0.66个百分点,证明关系嵌入先验与改进Focal Loss有效改善少数类抽取能力。
3.4. Ablation Experiments(消融实验)
去除HFR模块F1降0.83个百分点;去除关系嵌入(RE)F1降0.09个百分点;去除改进Focal Loss(改用交叉熵)F1降1.41个百分点。三者共同作用是模型性能提升的关键。
3.5. Limitations(局限性)
模型因引入BiLSTM、注意力及字词融合增加计算开销;依赖全监督标注数据;评估仅用宏平均三元组精确匹配未提供多次运行统计显著性检验,未来拟探索轻量化架构、低资源学习方法及更完备评估。
4. Knowledge Graph Construction and Wheat Relationship Analysis(知识图谱构建与小麦品种关系分析)
4.1. Knowledge Graph Construction(知识图谱构建)
将JERE-WVCT抽取的三元组按映射策略导入Neo4j:品种名及属性值建为节点(含名称与类型属性),相同属性值节点合并使品种间接相连,亲本关系(父本/母本取自原始数据"品种来源"字段)建为有向边。最终KG含76283实体节点、73670关系边。
4.2. Variety Relationship Analysis on the Knowledge Graph(基于知识图谱的品种关系分析)
对KG应用Leiden算法做无向社区发现(分辨率参数0.01),识别出531个社区——最大社区159个品种,平均6.3个品种/社区,11个主要社区含超50品种。高入度节点如周麦16(Zhoumai16)、济麦22(Jimai22)、良星99(Liangxing99)等为关键枢纽品种,揭示潜在育种亲缘聚集模式,可为后续种质调查提供线索但需生物学验证。
讨论与结论翻译
鉴于小麦品种审定信息结构化重组与利用的需求,本研究聚焦于联合实体-关系抽取及其在知识图谱构建中的应用。针对字词融合中候选特征无差别引入可能掩盖关键语义信息、候选特征间缺乏差异化加权以及小麦品种审定文本中关系类别严重不平衡的问题,提出了用于小麦品种审定文本的联合实体-关系抽取模型(JERE-WVCT)。该模型引入了基于层次候选词过滤与排序的深度字词融合策略,将关系类型信息作为先验知识纳入,并采用改进的Focal Loss增强对少数类关系类型的学习。在小麦品种审定数据集上的实验结果表明,所提模型取得了精确率96.37%、召回率97.19%、F1值96.78%,优于所有基线方法。基于抽取的三元组构建了小麦品种知识图谱,以支持结构化知识组织与下游知识发现。作为探索性下游应用,图分析进一步突显了若干高度连接的品种及潜在的品种关联,说明了所抽取知识可支持农业数据分析与知识探索。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号