基于混合自然语言处理与深度学习方法的农业文本本体构建

《AgriEngineering》:Ontology Construction for Agri-Text Using Hybrid NLP with Deep Learning Methods

【字体: 时间:2026年06月11日 来源:AgriEngineering 3

编辑推荐:

  开发农业本体(Ontology)将有助于推动农业领域的信息传递与自然语言处理(NLP)技术发展。构建领域特定本体需要对领域数据的语法和语境理解。尽管农业领域存在可用数据集,但缺乏专门为本体开发和关系抽取而构建的标准化大规模标注数据集。因此,由于结构化且经标注的

  
开发农业本体(Ontology)将有助于推动农业领域的信息传递与自然语言处理(NLP)技术发展。构建领域特定本体需要对领域数据的语法和语境理解。尽管农业领域存在可用数据集,但缺乏专门为本体开发和关系抽取而构建的标准化大规模标注数据集。因此,由于结构化且经标注的领域特定数据集不可用,需要一种结合语法分析与语境分析的标准方法来进行有效的数据处理。虽然已有多种方法为农业领域特定本体奠定基础,但本研究提出了一种结合预训练DeBERTa模型与正则表达式的方法,以及结合图注意力网络(GAT)与正则表达式的方法,分别用于术语抽取和领域关系抽取。从获取的实体及实体间连接出发,构建本体图。所提出的工作通过性能指标进行评估,并与现有工作进行了比较。研究发现,所提出的农业领域本体构建方法(Ontology Construction for Agriculture Domain, OCAD)优于其他方法。所提出的OCAD框架达到了99.64%的精确率(Precision)、99.26%的召回率(Recall)和99.5%的F1值(F1 Score),在领域特定环境下相较于现有方法表现出强劲性能。
本研究聚焦于农业领域本体构建这一关键挑战,旨在解决农业信息处理中的核心瓶颈问题。农业作为支撑全球生计的基础产业,其信息管理与知识组织的效率直接影响农业决策质量与资源利用效益。当前,农业领域虽存在大量数据资源,但面临结构化程度低、语义关系模糊、领域术语复杂等突出问题。具体而言,现有技术在指代消解(Anaphora Resolution)、术语抽取(Term Extraction)和关系抽取(Relationship Extraction)三个核心环节存在明显局限:传统规则方法缺乏泛化能力,深度学习方法难以融入领域约束,且多数研究将术语抽取与关系抽取割裂处理,未能实现语义理解与结构建模的统一。尤为关键的是,农业领域缺乏标准化的大规模标注数据集,严重制约了自动化本体构建技术的发展与应用。

针对上述问题,研究人员提出了OCAD框架,该框架创新性地整合了三大核心组件:基于DeBERTa的语境嵌入术语抽取、基于正则表达式的领域规则精炼,以及基于图注意力网络(GAT)的图结构学习。该框架通过统一工作流实现从原始文本到结构化本体的端到端构建,在指代消解、术语抽取和关系抽取任务上均取得显著性能提升,为农业知识管理与信息检索提供了重要技术支撑。该论文发表于《AgriEngineering》期刊。

研究采用的主要关键技术方法包括:在指代消解环节,研究人员结合AllenNLP与CoreNLP工具进行词性标注、句法分析和依存关系解析,通过计算上下文嵌入的余弦相似度实现代词与先行词的匹配;在术语抽取环节,采用预训练DeBERTa模型生成语境化词嵌入,结合领域特定的正则表达式模式进行术语识别与过滤,DeBERTa凭借其解耦注意力机制(Disentangled Attention)有效分离语义信息与位置信息,提升了领域术语的识别精度;在关系抽取与本体构建环节,采用图注意力网络(GAT)学习节点嵌入表示,通过网络层消息传递与多头注意力机制捕捉实体间的语义关联,同时结合基于词性标注模板和领域语言学模式设计的正则表达式进行关系模式匹配,最终构建以实体为节点、关系为边的本体图。研究所用数据集来源于联合国粮农组织(FAO)、印度农业与农民福利部、泰米尔纳德邦农业大学Agritech门户、全国园艺研究发展基金会等机构的541页农业文档,经三位领域专家标注,包含8200个句子、18500个实体和10330个关系,Cohen's Krecht's Kappa一致性系数达0.87。

研究结果部分涵盖以下核心内容:

指代消解结果。研究人员通过替换文本中的代词"it"和"they"等与其对应的先行词,消除了因指代不明导致的信息损失。该方法基于上下文嵌入的余弦相似度计算,在计算资源有限的条件下实现了有效的指代消解,为后续处理提供了语义一致的文本基础。

术语抽取结果。研究人员采用基于DeBERTa的语境嵌入方法结合正则表达式进行术语抽取,与KEA++、RENT、C-Value/NC-Value、SpaCy自定义命名实体识别(NER)、BERT+正则表达式等方法相比,DeBERTa模型在精确率和召回率方面均表现最优。实验结果表明,DeBERTa凭借其对语境的深层理解能力,有效处理了农业领域的一词多义现象,对噪声数据具有更强鲁棒性,且在处理长文本时表现稳定。消融实验显示,移除DeBERTa组件会显著影响模型的语境理解能力。

关系抽取与本体构建结果。研究人员采用GAT结合正则表达式进行关系抽取,与基于WordNet位置向量和模式的方法、基于形式概念分析(FCA)与Jaccard相似度的方法、基于Hearst模式的方法、基于图神经网络(GNN)结合正则表达式的方法等相比,GAT方法在精确率、召回率和F1值上均达到最优。GAT通过多头注意力机制聚合邻居节点信息,生成的节点嵌入有效捕捉了实体间的语义与结构关联;结合正则表达式的混合策略将表示学习与关系分类分离,便于有效融入领域知识。消融实验表明,移除GAT组件会显著影响关系建模效果。最终构建的本体图以实体为节点、关系为边,直观呈现了农业领域的知识结构。

性能评估与对比结果。研究人员对所提出的OCAD框架进行了全面评估,结果表明该框架达到99.64%的精确率、99.26%的召回率和99.5%的F1值,显著优于现有方法。研究人员还指出,由于农业领域缺乏标准化基准数据集,当前评估基于特定领域数据集进行,结果应结合领域同质性和预定义关系模式的影响加以理解。

讨论部分,研究人员首先强调了OCAD框架的技术优势:相较于独立应用深度学习方法和基于规则方法的混合策略,OCAD的统一工作流实现了语义理解与结构建模的深度整合;相较于大型语言模型(LLM),OCAD具有更高的可解释性、更低的计算资源需求,且其图结构设计更适合结构化关系建模任务。同时,研究人员客观分析了研究局限性:数据集规模相对有限,且未公开可用;依赖领域专家知识和预定义关系模式作为基线知识;缺乏跨数据集的交叉验证。未来研究方向包括:自动融入多样化领域关系以增强本体完整性;扩展框架至多农业子领域及多语言场景;在公开NLP基准上验证模型泛化能力;收集用户反馈以优化实际应用体验。

研究结论如下:本研究提出的OCAD框架成功实现了农业领域本体的自动化构建。该框架首先通过指代消解处理预处理农业文本,继而采用DeBERTa结合正则表达式高效抽取领域术语,再通过GAT结合正则表达式抽取实体间必要关系,最终构建结构化本体图。该方法达到了99.3%的准确率,所构建的本体全面覆盖了农业领域知识,有效避免了领域术语的遗漏。领域专家参与文档准备与评估工作,进一步确保了系统的实用性与准确性。该本体在增强农民知识、为研究人员提供可靠数据、辅助决策者进行资源管理、促进农业教育、简化推广服务、推动跨学科整合、洞察市场趋势与天气条件及环境影响等方面具有广泛应用价值,是推进农业信息检索的重要资源。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号