《Applied Sciences》:Large Language Model with Integrated Ontology and Inference Chain Constraints for Generative Information Extraction from Metallurgical Lifting Equipment Failure Reports
编辑推荐:
冶金起重设备在长期重载、高冲击及复杂工况下运行,由此产生的故障报告蕴含丰富的现场知识,可应用于故障诊断与预测性维护。然而,从过程化且隐式的维护记录中提取可追溯的结构化知识仍面临重大挑战。为此,研究人员提出了一种面向大型语言模型(Large Language M
冶金起重设备在长期重载、高冲击及复杂工况下运行,由此产生的故障报告蕴含丰富的现场知识,可应用于故障诊断与预测性维护。然而,从过程化且隐式的维护记录中提取可追溯的结构化知识仍面临重大挑战。为此,研究人员提出了一种面向大型语言模型(Large Language Models, LLMs)的生成式信息抽取方法,该方法融合本体模式(Ontology Schema)与推理链约束,针对冶金起重设备故障报告开展知识抽取与知识图谱(Knowledge Graph, KG)构建,该方法命名为面向运维的生成式约束信息抽取(Generative Constrained Information Extraction for Operations and Maintenance, GCIE-OM)。研究首先构建了领域本体模式,定义七种实体类型与九种关系类型,为结构化LLM生成建立明确的知识边界。进而设计了推理链辅助结构化解析方法(Inference Chain-Assisted Structured Parsing, IC-ASP),引导模型依序完成场景识别、实体边界范围界定、关系类型推理、证据可追溯性与定位、以及三元组输出。该分步过程强化了模型对设备层级结构、故障演化链及维护动作逻辑的理解能力。在此基础上,以ChatGLM或LLaMA作为骨干模型,通过低秩适应(Low-Rank Adaptation, LoRA)微调实现领域适配。进一步引入实体对齐与字符级源定位机制,在生成输出与源文档的文本证据之间建立精确映射。最终,抽取结果转化为标准化知识三元组并存储于Neo4j图数据库。据此,设计并实现了生成式信息抽取原型系统,以验证所提方法的实际有效性与适应性。实验结果表明,所提方法在实体识别、关系抽取及结构化输出质量方面均优于基线方法,为冶金起重设备的故障追溯与预测性维护提供了坚实的知识支撑。
冶金起重设备作为钢铁生产的关键资产,连接物料运输、工艺协调与操作安全,其健康状态直接影响高温、强冲击及交变重载等恶劣条件下的生产连续性与作业安全。随着运维策略从事后维修向预测性维护转型,故障单、故障报告与设备台账积累了大量关于故障症状、异常部件、诱发原因、维护动作及处理效果的现场知识,为构建设备故障知识图谱与智能运维系统提供了重要的数据资源。然而,这些文档本质上是面向现场维护活动产生的工程记录,而非为机器理解设计的标准化数据。其核心难点不仅在于文本表达的非规范性,更在于故障知识往往隐式嵌入"设备层级—异常症状—根因诊断—维护动作—处理结果"的链式过程中,且单一句子可能同时涉及部件隶属关系、参数异常及因果关系等多重语义。因此,如何利用LLMs从故障报告中高效、准确地抽取结构化知识以支撑故障追溯与预测性维护等下游应用,已成为冶金企业关注的关键问题。
现有工业文本信息抽取方法主要涉及深度学习与预训练语言模型。深度学习方法如BiLSTM-CRF已广泛应用于命名实体识别(Named Entity Recognition, NER)和关系抽取(Relation Extraction, RE)任务,但多采用实体识别后关系分类的流水线范式,易产生误差累积。基于预训练语言模型的方法如BERT进一步增强了语义表征能力,但在低资源工业场景中仍需大规模标注语料,且对冶金起重设备高领域特异性、流程化及因果性特征的运维文本适应性不足。近年来,以LLaMA和ChatGLM为代表的LLMs在语言理解、少样本泛化及指令遵循方面展现出卓越能力,为低资源条件下的领域信息抽取提供了新的技术路径。但直接将通用LLMs应用于冶金起重设备运维文档仍存在明显局限:其一,缺乏设备层级、部件构成及故障类型等领域先验约束,容易生成偏离工业知识边界的实体或关系;其二,故障知识具有鲜明的流程链特征,若仅依赖表面语义进行生成,模型难以准确识别隐性的因果与时序关系;其三,LLMs的输出可能不可控且难以追溯,若抽取结果与源文本证据之间缺乏精确对齐,则难以满足工业运维场景对可靠性和可解释性的严苛要求。
针对上述问题,研究人员提出了融合本体模式与推理链约束的LLM生成式信息抽取方法GCIE-OM,该方法将工业领域本体模式、IC-ASP推理链、LoRA领域微调以及字符级源定位机制整合为统一的生成式信息抽取框架。研究首先构建了面向冶金起重设备运维场景的领域本体,明确定义七种实体类型和九种关系类型,为模型生成过程提供结构化先验约束;进而设计IC-ASP引导模型完成包含五个步骤的顺序解析过程,使其能够从现场文本中挖掘隐性故障逻辑链;再采用LoRA对ChatGLM或LLaMA等基础模型进行领域适配,并结合实体对齐与字符级文本源定位机制,将生成输出映射为标准JSON格式、知识三元组及可追溯证据片段;最终结果存储于Neo4j图数据库以支撑知识图谱可视化。
该框架采用自下而上的四层渐进式架构。第一层为多源数据获取与预处理层,从MES(制造执行系统)、ERP(企业资源规划)等信息系统采集PDF、Word、Txt等格式的海量异构运维文档,经文本清洗、分段和术语标准化生成规范化输入。第二层为生成式信息抽取层,以ChatGLM或LLaMA作为基础LLM,通过LoRA微调实现冶金设备维护领域知识适配,抽取过程受双重约束:本体模式严格定义七种实体类型和九种关系类型,IC-ASP推理链则引导模型完成场景识别、实体边界范围界定、关系类型推理、证据可追溯性与定位、结构化三元组输出五步标准化认知推理。第三层为结构化抽取与实体对齐层,将抽取结果格式化为标准JSON,采用基于分数最大化的匹配策略进行稳健实体对齐,并通过字符级文本源定位确保可追溯性。第四层为知识图谱生成与应用层,将标准化知识三元组导入底层图数据库,实现多维度知识图谱可视化与网络拓扑表示,为下游设备状态监测和智能故障诊断提供端到端系统级支持。
研究人员在信息抽取任务的形式化定义基础上,进一步定义了用于可追溯性的锚定信息,包括实体实例和关系实例在源文本中的字符级起始和结束偏移量,以及对应的源文本证据片段。
在工业设备运维的本体模式设计方面,研究人员基于工业设备维护的物理与逻辑原理,参考企业设备管理与运维标准,定义了涵盖设备全方位信息的七种实体类型:DEVICE(设备)、COMPONENT(部件)、SYMPTOM(症状)、CAUSE(原因)、ACTION(动作)、PARAMETER(参数)和HUMAN(人员)。同时定义了九种关系类型:PART_OF(部件隶属于设备)、HAS_SYMPTOM(设备/部件具有症状)、CAUSED_BY(症状由原因导致)、ACTION_ON(动作作用于部件/设备)、RESOLVES(动作解决症状)、TARGETS(动作针对原因)、PARAM_OF(参数属于部件/设备)、PARAM_EXCEED(参数超标引发症状)以及TEMPORAL_AFTER(动作间时序关系)。每种关系均严格定义了域和范围约束,即头实体类型与尾实体类型之间的关联约束基于设备维护知识中的本体逻辑,有效避免模型推理时生成无效语义关系实例。该本体模式完整映射了从设备结构与参数状态到故障现象、根因及维护干预的完整逻辑链,确保实体关联的物理有效性与语义一致性。
IC-ASP机制通过将认知推理链模板嵌入LLM提示词中,引导模型完成多步骤、可追溯的推理过程。该机制分解为五个顺序逻辑步骤,每个步骤基于工业运维故障诊断的特定认知阶段,且各步骤输出作为后续步骤的本体约束输入,形成具有显式步骤依赖关系的有向推理链。这与通用思维链提示的根本区别在于:中间输出被绑定到带类型的本体类别而非无约束的自然语言推理,从而在各阶段限制候选实体和关系空间,减少推理链中的误差传播。具体而言,第一步场景识别模块精确定位文本中描述的设备对象和故障场景;第二步实体边界范围界定涉及对维护文本中常见嵌套实体和隐式实体的个体标注与边界锚定;第三步关系类型推理利用已识别的实体对和维护领域本体的语义约束推断实体间关联及关系类型;第四步证据可追溯性模块定位每个抽取实体和关系在原文中的起止偏移位置,并提取支撑证据文本片段;第五步将推理过程中生成的实体、关系和可追溯性信息按预定义JSON Schema格式标准化整合,输出具有完整语义和逻辑一致性的结构化知识。
为使LLM适应复杂指令和模式约束,研究人员在构建IC-ASP后引入LoRA指令微调。使用IC-ASP推理链的完整输出构建三元组(x, c, y)作为监督信号,其中x为原始指令输入文本,c为
inference标签内的五步推理链文本,y为
output标签内的结构化JSON结果。训练过程中,主要损失函数作用于
output中的结构化JSON输出,同时以较低权重对
inference中的推理链施加辅助损失,确保模型优先学习正确的结构化输出并保持推理链的内在逻辑连贯性。LoRA通过在原始预训练权重矩阵W
0上叠加低秩增量矩阵ΔW进行高效参数微调,而非直接修改原始权重矩阵,其中ΔW = BA,B和A为两个可训练的低秩矩阵,r
lora为秩,α为缩放因子。
为进一步提升实体对齐准确性,研究人员提出两阶段实体对齐策略。关键设计在于融入可追溯性锚定定义,使用第四步生成的证据窗口文本作为对齐上下文进行编码。第一阶段采用以bge-large-zh为骨干编码器的双编码器架构,将实体文本与其证据上下文拼接后编码,计算查询实体与候选实体间的余弦相似度以召回Top-K候选。第二阶段由交叉编码器整合实体类型约束对Top-K候选进行精排,基于微调置信度S
merge和阈值τ
th做出最终对齐决策:若得分不低于阈值0.75,则将查询实体合并入已有节点,否则创建新节点。该阈值0.75通过在验证集上以0.05步长对0.60至0.90范围进行网格搜索确定,验证集上对齐F1分数在τ=0.75时达到峰值。
实验研究基于某钢铁冶炼企业2022年至2024年积累的故障报告,原始数据共2347份文档,经去重、格式标准化和长度过滤后保留1856份有效文档,总字符数约74.3万,平均长度约400字符。其中200份文档标注用于低资源微调范式,由两名具有五年以上冶金起重设备现场经验的维护工程师和一名自然语言处理研究人员完成标注,实体标注的Cohen's Kappa系数为0.83,关系标注为0.79,均达到显著一致水平。200份标注文档按7:1:2划分为训练集(140份)、验证集(20份)和测试集(40份),测试集包含1012个实体实例和743个关系实例。
基线方法对比实验选取六种模型:BERT-BiLSTM-CRF、UIE-Base、ChatGLM3-6B、LLaMA2-7B-Chat、ChatGLM3-LoRA和LLaMA2-LoRA。GCIE-OM在NER和RE的F1分数上均优于所有对比方法,NER-F1达90.44%,RE-F1达85.64%。与ChatGLM3-LoRA相比,NER-F1提升2.90%,RE-F1提升3.26%,均为标准差的约七至九倍,表明改进稳定且非随机变异。与零样本LLaMA2-7B相比,其NER-F1仅58.94%,说明领域特定术语和模式格式要求远超预训练语料覆盖范围。值得关注的是,LLaMA2-LoRA的NER-F1仅82.64%,低于UIE的83.82%,表明LoRA微调效果强烈依赖骨干模型的预训练能力。
细粒度类别分析显示,GCIE-OM在全部七种实体类型上均表现最优,对ChatGLM3-LoRA的提升集中于语义挑战类别:PARAMETER提升3.42%、DEVICE提升3.86%、SYMPTOM提升2.79%、CAUSE提升1.79%。PARAMETER和DEVICE的最大绝对增益反映了本体类型约束在消歧量化指标和设备级指代方面的优势。HUMAN提升1.74%为最小,因其在维护记录中具有显式词汇信号。关系层面,CAUSED_BY提升最为显著,GCIE-OM的F1达85.13%,较ChatGLM3-LoRA提升7.62%,直接证明IC-ASP在解析工业故障描述中隐性因果链的针对性效果。PARAM_OF表现最佳,ACTION_ON和HAS_SYMPTOM紧随其后,表明这些关系类型具有相对固定的句法模式。TEMPORAL_AFTER的F1达83.24%,较ChatGLM3-LoRA提升4.52%,反映IC-ASP强制执行时序约束的能力。
消融实验定量分析各模块贡献。移除IC-ASP后,NER-F1降至88.36%(下降2.08%),RE-F1降至83.51%(下降2.13%),验证了IC-ASP对结构化因果和时序推理的贡献,其影响集中于CAUSED_BY和TEMPORAL_AFTER等关系类型。移除本体模式约束后,NER-F1降至87.93%(下降2.51%),RE-F1降至82.89%(下降2.75%),直接验证了本体模式对实体类型消歧和关系边界约束的贡献。移除LoRA微调导致最严重退化,确认领域特定参数适配是整个框架的必要基础。实体对齐率(Entity Alignment Rate, EAR)评估显示,完整GCIE-OM模型达89.52%,优于所有消融变体,验证本体模式和IC-ASP组件均有助于提升源对齐精度。
案例分析展示了IC-ASP对典型设备故障报告的完整处理流程,从场景识别到结构化输出的五步推理均有据可依。同时观察到测试集中存在部分失败案例:模糊实体边界偶尔导致模型合并相邻实体或截断多词部件,少数输出包含本体无效关系(如将"机油压力阀泄漏"错误作为一个整体故障实体而非分离为部件和故障现象),这些输出经本体验证后处理步骤拒绝并标记人工复核。基于该方法设计的原型系统包含文档上传、文本解析导入、文档信息提取、知识图谱构建与存储四大模块,支持PDF和Word格式,端到端平均延迟4.37秒/文档,吞吐量13.7文档/分钟,满足日常维护记录处理需求。
在讨论与结论部分,研究人员总结了GCIE-OM的核心优势:通过领域本体约束生成输出空间,通过IC-ASP将推理过程实例化为基于设备故障诊断物理过程的强制顺序解析程序,这两者不同于仅将结构化知识作为软语义提示注入的KnowCoder等现有方法,也不同于仅触发自由形式中间推理的CoTKR等思维链方法。实验局限性在于当前研究基于单一钢铁冶炼企业数据集,方法向其他冶金设备类型或更广泛工业领域的泛化性有待进一步验证;且受计算硬件和数据安全考虑,目前仅局限于少量开源LLM。未来工作将沿两个方向推进:一是改进生成式改述实体提及的字符级偏移恢复,以缩小实体对齐差距;二是将框架扩展至更广泛的工业场景和跨领域语料,评估其泛化能力。