用于热力机组故障诊断的多尺度特征融合变换器模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：A multi-scale feature fusion transformer model for fault diagnosis of thermal power units

【字体：大中小】 时间：2026年06月18日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　王子阳|王帆|宋美琪|王云伟|韩秋月|徐伟|刘晓静中国上海交通大学智能能源学院，上海200240 摘要热力发电机组在极端环境下运行，因此对其关键设备进行早期故障诊断对于避免非计划停机至关重要。在实际的工业环境中，变负荷运行过程中采集的传感器数据具有高维度、非线性特征，并呈

　　王子阳|王帆|宋美琪|王云伟|韩秋月|徐伟|刘晓静中国上海交通大学智能能源学院，上海200240

摘要
热力发电机组在极端环境下运行，因此对其关键设备进行早期故障诊断对于避免非计划停机至关重要。在实际的工业环境中，变负荷运行过程中采集的传感器数据具有高维度、非线性特征，并呈现复杂的多尺度时间行为，这给精确的故障诊断带来了巨大挑战。现有的深度学习方法通常依赖于单尺度时间特征，往往无法同时捕捉瞬态干扰和长期退化趋势。为克服这些局限性，本研究提出了一种专为工业时间故障诊断设计的多尺度特征融合Transformer模型——MSFF-Transformer。该模型采用三通道特征提取框架，通过统一的滑动窗口策略生成瞬时表征、时域统计指标以及通过快速傅里叶变换得到的频域谱特征。每类特征流都由专用的Transformer编码器处理，从而实现针对不同尺度的独立建模，避免特征之间的相互干扰。随后，一种基于动态门控注意力的融合机制通过自适应评估各通道的可靠性来整合异构信息。在发电厂数据上的测试表明，MSFF-Transformer在轻微噪声条件下的准确率可达0.996，优于现有的基准模型。此外，该模型在四种工业场景下都能保持稳定性能：轻微和严重的高斯噪声、量化误差以及传感器漂移。例如，在严重高斯噪声环境下，其准确率仍可保持在0.945，而标准Transformer的准确率则降至0.885。这些结果表明，将多尺度独立建模与自适应全局序列建模相结合，能够提升诊断的准确性与稳健性，为复杂能源系统中的智能状态监测提供了实用且高效的解决方案。

引言
热力发电是中国电力系统中的核心能源来源。其安全、稳定、高效运行对于国家能源安全及可持续经济发展具有重要意义。热力发电厂是一个极为复杂的系统，包括锅炉、蒸汽轮机、发电机以及许多辅助设备，如风扇、泵和采煤机等。这些关键设备在高温、高压和高速度等恶劣条件下长时间运转，因此特别容易出现各种故障（Lei等人，2020）。一旦发生故障，就可能引发非计划停机，造成巨大的经济损失，甚至引发重大安全事故，对人员和设备构成严重威胁。由于现代工业系统具有复杂的物理机制和严格的安全要求，故障诊断面临着数据量庞大、故障样本稀缺以及多参数关联复杂等诸多挑战。尤其是，为了实现可再生能源的接入，现代热力发电机组常常需要在灵活的负荷条件下运行。这种动态运行会导致传感器信号变得非平稳，呈现出显著的多尺度时间特性。例如，负荷的瞬时变化可能在几秒钟内发生，而设备的退化过程则可能需要数月时间。这种多尺度特性大大增加了传统单尺度模型进行精确故障诊断的难度。为解决故障样本匮乏的问题，Xing等人（2024）提出了一种基于贝叶斯优化的自编码器模型，该模型仅使用正常运行时的数据进行训练。当出现异常情况时，模型对新数据的重建误差会增大，从而有效检测出故障。这种无需依赖故障标签的建模思路为解决类似问题提供了非常重要的参考。

发电厂设备的建模方法主要分为两类：基于模型的（物理驱动）方法与基于数据的方法（Song等人，2023）。基于模型的方法依靠严谨的物理机制来模拟系统行为。例如，最近的研究成功应用多物理场耦合技术分析了热管冷却反应堆（Li等人，2023），评估了压水反应堆中连续性和随机性的不良偏差沉积效应（Wang等人，2024a），并模拟了空间核反应堆的瞬态特性（Chai等人，2024）。尽管这些方法具有很高的精度，但往往需要较高的计算成本。相比之下，基于数据的方法则利用监测数据来学习潜在模式。Xiao等人（2025）提出了一种结合改进型Transformer与贝叶斯不确定性分析的预测框架，而Zhang等人（2025a）则提出了用于事故场景的EXP-Transformer，证明了基于Transformer的架构在复杂能源系统中的优越性。

传统的故障诊断方法主要依赖于定期维护和基于规则的专家系统，但这些方法普遍存在维护过度、维护不足或响应延迟等问题（Jardine等人，2006）。随着工业大数据和人工智能的快速发展，基于数据的故障检测与诊断技术彻底改变了热力发电厂的智能维护方式（Gao等人，2015）。通过在设备运行期间收集大量的多源传感器数据（如振动、温度、压力和流量等），并利用先进的机器学习算法提取其中蕴含的设备健康信息，就可以实现早期故障预警和精准诊断（Zhao等人，2019）。

热力发电厂中的传感器数据具有高维度、非线性、强耦合以及长距离依赖等典型特征。传统的浅层机器学习模型（如支持向量机和随机森林）在处理这类复杂的时序数据时，其特征提取能力有限，难以捕捉深层、抽象的模式。Sun等人（2025）将核主成分分析与支持向量机相结合，成功将该方法应用于核电站化学与容积控制系统的故障诊断，为工业故障诊断问题提供了宝贵思路。然而，随着数据维度和复杂性的不断增加，研究界正在寻求具备更深层次自动特征提取能力的模型。

现代热力发电机组为了平衡电网负荷，需要在不断调整负荷的情况下运行。这种灵活的运行方式使得正常的传感器信号（如振动、电流和压力等）出现非平稳的多尺度时间波动。更严重的是，工业传感器极易受到恶劣环境因素的干扰。例如，突如其来的电磁干扰常常会在信号波形中产生高斯噪声。分布式控制系统中的模数转换器不可避免地会引入量化误差。此外，老化的传感器还常常会出现零点逐渐偏移的现象。当这些不同的噪声源污染原始数据时，那些仅依赖瞬时序列特征的传统深度学习模型，其性能会迅速下降。

这种脆弱性使得故障诊断在稳健性与灵敏性之间面临根本性的权衡。如果一个模型对原始瞬时特征过于敏感，那么一次电磁脉冲就可能导致误报。频繁的误报会让操作人员忽视警告，进而严重扰乱正常的发电秩序，带来昂贵且不必要的检查成本。相反，如果一个模型仅仅依赖经过平滑处理的宏观统计特征来过滤噪声，它可能会完全错过那些预示着转子或轴承早期故障的突发高频机械冲击信号。这样的漏检可能导致设备严重损坏以及电厂的非计划停机。

因此，一个有效的诊断模型必须能够在多个时间尺度上提取特征，并能在不同的噪声条件下动态评估各特征通道的可靠性。解决现有模型在这方面的结构缺陷，以实现高诊断精度与严格的工业安全要求，正是本研究的重点所在。

目前，深度学习已成为故障诊断的主流方法。一维卷积神经网络已被直接应用于振动信号和其他一维时序数据，能够自动学习有效的局部特征，因此在轴承、齿轮箱及其他旋转机械的故障诊断中得到了广泛应用（Janssens等人，2016）。循环神经网络及其改进版本，如长短期记忆网络和门控循环单元，由于具备捕捉时间动态的自然能力，在处理序列数据方面表现优异，其在建模时间依赖性方面的效果尤为突出（Zhao等人，2017）。然而，CNN在处理长序列时缺乏足够的全局建模能力，而基于RNN的模型则由于顺序计算结构导致训练效率较低，难以学习非常长期的依赖关系（Wen等人，2022）。尽管基于Transformer的模型因其全局建模能力而展现出巨大潜力，但大多数现有架构仍然只在单一时间尺度上处理时序数据。在真实的热力发电环境中，传感器数据常常会受到高斯噪声的干扰。标准Transformer高度依赖原始瞬时序列的精确度，因此极易受到此类噪声的影响，从而导致性能急剧下降和极高的误报率。

尤其是在热力发电机组的故障诊断领域，研究正从稳态条件转向更为复杂的动态运行过程。由于电网需要跟随负荷变化，热力发电机组经常要在变负荷的动态过渡过程中运行，这为故障诊断带来了新的挑战。

基于Transformer的模型由于其强大的全局建模能力和可并行化的架构而越来越受到关注。Xiao等人（2024）证明，在核电站事故场景下的多变量时序预测中，Transformer的性能明显优于LSTM和CNN-LSTM。Zhou等人（2021）提出了Informer模型，提升了长序列预测的准确性与效率。Nie等人（2022）则推出了PatchTST，该方法通过将长信号分割成多个片段来提升长期建模性能。这些研究共同证明了Transformer架构适用于工业时序任务。不过，大多数现有方法仍然依赖原始特征或单尺度特征，未能充分考虑故障特征的多尺度特性。

为克服单尺度分析的局限性，各个领域都引入了多尺度策略。从多个维度提取并融合深层物理洞察这一核心理念，不仅在故障诊断领域取得了良好效果，也在其他复杂的视觉任务中展现出优势。例如，在机械诊断领域，Jiang等人（2018）提出了一种多尺度卷积神经网络，通过并行分支在不同尺度上提取特征。同样，在遥感领域，Zhang等人（2026）提出了语义补偿自适应融合网络，利用语义补偿自适应融合模块来对齐局部特征与全局特征。Zhang等人（2025b）还开发了渐进式交互与显著性引导增强网络，用于显著物体检测，该网络通过分层融合来减少多尺度特征之间的语义差异。

此外，传统多尺度耦合方法的局限性在越来越多的深度学习领域被人们所认识。在视频显著性预测领域，Zhang等人（2025c）发现，复杂的多尺度融合往往存在结构冗余问题，且缺乏有效的时间传递机制，从而导致预测精度下降。这一发现对工业故障诊断具有非常重要的意义：当使用耦合金字塔或早期串联方式直接融合异构特征时，它们各自不同的物理含义往往会在初始学习阶段导致严重的特征干扰和语义模糊。

在时序建模领域，一些先进的架构也在不断推动技术边界的发展。Liu等人（2023）提出了iTransformer，该模型通过反转注意力机制来捕捉多变量相关性。Wang等人（2024b）引入了TimeMixer，通过多尺度混合来分解复杂的时序模式，而Gong等人（2023）则开发了PatchMixer，这是一种侧重于块级交互的轻量级架构。Chen等人（2022）还提出了用于异常检测的U形Transformer模型，该模型利用U形Transformer金字塔结构进行工业异常检测。然而，这些架构通常采用早期串联、多层金字塔或耦合混合结构。在热力发电故障诊断的背景下，各种异构特征（如高频瞬时波动和低频频谱能量）具有不同的物理意义。如果不进行独立建模就直接将它们融合在一起，可能会在初始学习阶段导致特征干扰和语义模糊。此外，像TimeMixer这类通用模型往往缺乏专门用于过滤发电厂中常见的高斯传感器噪声的机制。因此，如何在解耦的全局建模框架内协同利用这些不同尺度上的特征，仍然是一个重要的挑战。

为清晰展示MSFF-Transformer的架构优势，表1对其与代表性的多尺度模型进行了结构对比。对比重点在于特征编码、噪声抑制以及跨尺度语义保留等方面的底层机制。

为弥合高维度多尺度特征耦合与工业状态监测严格可靠性要求之间的差距，本研究提出了MSFF-Transformer。与现有的多尺度诊断方法相比，本工作的核心贡献如下：

（1）一种解耦的多尺度并行编码架构：该架构设计了一种新颖的三通道Transformer编码器框架，用于独立建模瞬时波动、时域统计特性以及频域周期性特征。与传统的分层模型或早期串联模型不同，这种解耦设计能够保持每个尺度的语义完整性，有效防止高斯噪声在初始编码阶段污染稳定的宏观特征。

（2）一种动态门控注意力融合机制：该机制是一种自适应融合方式，能够针对每个具体样本动态评估不同类型特征流的可靠性。通过学习特定样本的可靠性得分，该模型能够自动抑制受噪声干扰的信号——比如失真的原始波形——并优先采用更为稳定的统计表征方式。这一机制对于在恶劣的工业环境中降低误报率至关重要。(3)在高斯噪声环境下的强大诊断性能：所提出的方法已在各种先进的时序分析架构上，利用真实的工业数据集进行了全面验证。实验结果表明，即使在极端的高斯噪声干扰下，MSFF-Transformer也能保持较高的诊断准确率及马修斯相关系数，从而展现出其相较于通用模型更高的稳定性。(4)效率与可靠性的完美平衡：该模型凭借极轻量的结构（仅0.015百万个参数）就能实现高精度诊断。其较低的推理延迟（3.14毫秒）完全满足工业分布式控制系统的实时性要求，因此无需昂贵的高性能计算硬件，即可作为在线部署的可行方案。

**部分内容摘录**

**特征提取**
在数据预处理阶段，该方法会将原始的高维传感器数据转换为适合Transformer架构使用的结构化多尺度表示形式。整个流程包含两个主要步骤：数据标准化和多尺度特征提取。所有传感器通道都通过Z分数标准化处理，以消除不同物理量之间的量级差异。标准化完成后，再采用多尺度特征提取策略。

**数据集**
所提出的MSFF-Transformer的诊断性能是通过来自一台600兆瓦超临界热力发电机组的真实工业数据集来验证的。这些数据是以1赫兹的标准采样率从分布式控制系统采集的，即每秒一个数据点，共计11,498个连续时间步长。具体的诊断任务涉及六类情况：第0类代表正常运行状态，而第1类到第5类则对应五种常见的故障模式。

**性能对比**
为测试MSFF-Transformer的诊断效果与稳定性，研究人员对其与九种具有代表性的模型进行了详细对比。这些基准模型包括传统的机器学习方法（支持向量机）、常规深度学习模型（卷积神经网络、Transformer），以及最新的先进时序分析架构（如iTransformer、TimeMixer和PatchMixer）。为评估其在工业场景中的适用性，所有模型都被置于四种不同的干扰环境下进行测试：轻微的高斯噪声（标准差为……）

**结论**
本研究提出了一种专为解决热力发电机组故障诊断中高维非线性特征及高斯噪声问题而设计的MSFF-Transformer模型。通过构建解耦的并行编码架构，该模型能够独立提取瞬时波动、时域统计特征以及频域周期性模式，从而有效防止在初始学习阶段噪声在不同尺度间的传播。

**CRediT作者贡献说明**
王子阳：方法设计、初稿撰写。王帆：数据整理。宋美琪：文稿审阅与编辑。王云伟：数据整理。韩秋月：数据整理。徐伟：文稿审阅与编辑。刘晓静：文稿审阅与编辑。

**利益冲突声明**
作者们声明自己不存在任何可能影响本文研究结果的已知财务利益或个人关系。

联系信箱：

粤ICP备09063491号

热点排行