工业系统故障诊断的随机掩码因果图网络(Stochastic Mask Causal Graph Network for Industrial System Fault Diagnosis)

《Machines》：Stochastic Mask Causal Graph Network for Industrial System Fault Diagnosis

【字体：大中小】 时间：2026年06月10日 来源：Machines 2.5

编辑推荐：

　　尽管图神经网络（Graph Neural Network, GNN）在建模工业故障诊断中传感器交互网络方面已被证实有效，但仍面临两个关键局限：黑箱操作导致故障识别与传播分析缺乏透明性，以及不可靠的注意力机制——其权重无法真实反映传感器或其交互的真实相关性。为解

尽管图神经网络（Graph Neural Network, GNN）在建模工业故障诊断中传感器交互网络方面已被证实有效，但仍面临两个关键局限：黑箱操作导致故障识别与传播分析缺乏透明性，以及不可靠的注意力机制——其权重无法真实反映传感器或其交互的真实相关性。为解决上述问题，研究人员提出了随机掩码因果图网络（Stochastic Mask Causal Graph Network, SMCGN），这是一种由信息瓶颈（Information Bottleneck, IB）原则引导的可学习随机掩码机制集成的新框架。不同于传统的基于注意力或事后解释（post-hoc）方法，该方法自动抑制与标签无关的图分量，保留因果相关的结构，从而在不依赖偏假设的情况下提供忠实的内在可解释性，并有效剔除伪相关（spurious correlations）以增强泛化能力。在真实复杂工业系统数据集上的综合实验表明，所提方法相较于现有先进方法取得了更优的诊断精度和增强的可解释性。

论文解读：《Machines》——基于信息瓶颈原则的可解释性随机掩码因果图网络在工业系统故障诊断中的应用

【研究背景与意义】

复杂工业系统（如三相流设施、核电回路系统）普遍存在强耦合、非线性动力学及运行不确定性，局部故障易跨子系统传播引发连锁失效，因此准确及时的故障诊断对系统韧性、运行安全及经济效益至关重要。工业现场广泛布设传感器网络，传感器间基于设备功能依赖形成潜在的交互图（Interaction Graph），属于非欧几里得数据。传统故障诊断方法难以捕捉传感器间的拓扑依赖与交互关系，而将各传感器作为节点、隐式关联作为边的传感器交互属性图（Structural Attribute Graph）可自然编码故障特征与传播轨迹，不同故障类别对应不同图拓扑，故图神经网络（Graph Neural Network, GNN）凭借对非欧氏拓扑的归纳偏置在故障诊断中表现突出。然而现存GNN故障诊断方法多为黑箱操作，缺乏诊断推理过程的透明度；虽引入注意力机制赋予内在可解释性，但已有证据表明注意力权重分布并不始终对映传感器或 pairwise 交互对诊断输出的真实贡献，可能误导关键传感器或传播路径的识别；另外不变学习等捕获传感器信号与故障类别因果关系的方法计算开销大，难部署于大规模工业装置，事后解释方法因先训练无约束网络再做信息受限投影，解释质量高度依赖预训练模型。综上，同时实现高精度、忠实可解释性与计算可行的故障诊断模型仍是待解决的重要课题。研究人员提出随机掩码因果图网络（Stochastic Mask Causal Graph Network, SMCGN），受信息瓶颈（Information Bottleneck, IB）原则启发，在图学习过程中嵌入可学习随机掩码，自动抑制标签无关图分量、保留故障相关因果结构，兼具内在可解释性与伪相关剔除带来的泛化提升，并在真实工业数据集验证其优越性。

【关键技术方法】

研究人员采用两个工业过程数据集开展验证：三相流设施（Three-Phase Flow Facility, TFF）数据集含24个传感器测得的压力/流量/密度/温度，涵盖6种故障模式及正常工况，采样频率1 Hz，50 s滑动窗取样本，按8:1:1划分训练/验证/测试集；电力系统（Power System, PS）过程仿真器数据集经剔除开关量与冗余信号后保留64个监测变量（压力/流量/温度及阀门状态等），涵盖13种故障场景与正常工况，采样频率4 Hz，20 s片段为单样本，同类比例划分。方法核心步骤为：①将多传感器时序分段建全连接图G=(X,A)，节点为特征向量拼接矩阵X∈R^{n×d，邻接矩阵A表征传感器关联；②输入两层GIN（Graph Isomorphism Network）编码器获节点表示h_v^(l)，基于节点对嵌入通过Sigmoid估计边(i,j)的故障相关因果概率p_ij=σ(h_i^Th_j)；③依Bernoulli(p_ij)做Gumbel-Softmax重参采样得随机掩码M_ij，逐元素Hadamard积得因果子图邻接?=M⊙A，构建因果子图G?=(X,?)；④联合优化交叉熵分类损失L_cls与信息瓶颈正则项（KL散度约束边分布接近先验固定采样概率p₀），β平衡两项，端到端训练使模型仅基于因果子图做图分类故障诊断。基线对照包括GCN、GAT、GraphSAGE、DiffPool、GIB、CTAGNN、IGCL-GNN及GPRGNN，统一用两层、dropout=0.5、batch=128、隐藏层90维、训练200 epoch，SMCGN主干同为两层GIN，PS初学习率0.001、TFF为0.005，以验证集最优宏F1（F1-macro）选模，评估指标为F1-micro（Accuracy）与F1-macro。}

【研究结果】

3.1 Data Description

介绍TFF与PS数据集构成、传感变量、故障模式设计、归一化方式及样本划分比例，为后续对比实验提供基准数据基础。

3.2 Baselines

列出8种代表性GNN及因果/信息瓶颈类基线方法，明确对照组的选取依据以保证公平性。

3.3 Experimental Settings and Metrics

详述各模型超参数配置（层数、dropout、batch size、学习率衰减策略等）及SMCGN特有设定，规定以验证集F1-macro择优、F1-micro与F1-macro为评价指标。

3.4 Performance Comparison

在TFF与PS数据集上SMCGN总体表现优于所有基线，TFF数据集全面超越，PS数据集略低于CTAGNN与IGCL-GNN但TFF明显占优，说明SMCGN跨场景泛化更稳；GCN/GraphSAGE/DiffPool得分偏低印证常规GNN难捕获工业故障诊断复杂结构依赖；GAT、GIB、GPRGNN亦被SMCGN显著超越。训练过程F1-macro与F1-micro曲线虽有波动但最终收敛平稳。t-SNE可视化显示训练后异类故障特征可分性明显提升、同类聚类改善。TFF上学得的各故障类边权可视化显示模型捕捉到不同节点间连接强弱变化。混淆矩阵证明SMCGN对各故障类别具清晰区分能力。

【讨论与结论翻译】

研究人员提出并验证了一种面向工业故障诊断的随机掩码因果图网络（Stochastic Mask Causal Graph Network, SMCGN），作为创新的可解释图表示学习模块。PS与TFF数据集上的大量实验定量证明SMCGN优于基线方法（见表3），混淆矩阵进一步阐明模型分类能力，t-SNE可视化直观展现训练后样本聚类效果，定量与定性分析共同证实SMCGN对工业故障诊断任务的有效性。SMCGN引入随机扰动抑制标签无关信息，逐步削减随机性以提取任务相关子图结构，该设计以信息瓶颈（Information Bottleneck, IB）原则为理论依据。SMCGN具若干变革性特征：避免对图解释强加稀疏性、连续性或其他隐偏假设，同时保持模型性能；可进一步缓解伪相关从而提升泛化能力。但SMCGN性能仍可能对信息瓶颈正则系数及预设图结构敏感，且随机掩码机制对大规模传感器网络引入额外计算开销。未来工作将聚焦于提升训练效率及融入更具物理意义的图构建策略。作为副产品，研究人员从信息瓶颈优化视角揭示了事后解释方法固有的底层问题。

热点排行