基于注意力机制的去噪域对抗网络在真实工业环境中的电机故障诊断应用金林杰（Linjie Jin）刘正清（Zhengqing Liu）顾大为（Dawei Gu）潘白松（Baisong Pan）王秋成（Qiucheng Wang）穆罕默德·法德（Mohammad Fard）

《Machines》：Denoising Domain Adversarial Network Based on Attention Mechanism for Motor Fault Diagnosis in Real Industrial Environment Linjie Jin, Zhengqing Liu, Dawei Gu, Baisong Pan, Qiucheng Wang and Mohammad Fard

【字体：大中小】 时间：2026年05月02日 来源：Machines 2.5

编辑推荐：

　　摘要：基于声学信号的故障诊断为旋转机械提供了一种有前景的非接触式方法。然而，其实际应用通常会受到环境噪声的影响。本文提出了一种去噪注意力域对抗网络（DDAN），用于在严重噪声干扰下对轮毂电机进行鲁棒故障诊断。该框架包括以下两个核心模块：一个基于DenseNet的去噪模块，能够自适

　　摘要：基于声学信号的故障诊断为旋转机械提供了一种有前景的非接触式方法。然而，其实际应用通常会受到环境噪声的影响。本文提出了一种去噪注意力域对抗网络（DDAN），用于在严重噪声干扰下对轮毂电机进行鲁棒故障诊断。该框架包括以下两个核心模块：一个基于DenseNet的去噪模块，能够自适应地抑制背景噪声同时保留关键故障特征；以及一个堆叠自编码器域对抗网络（SADAN），它结合了通道注意力、空间注意力和多头自注意力（MHSA）以实现精细的特征提取和分类。这种分层注意力机制有助于有效抑制局部噪声并捕捉全局依赖关系。在轮毂电机故障数据集和公开可用的在线数据集上的验证表明，与现有方法相比，DDAN在各种噪声水平和信噪比下都能实现更高的诊断准确性，信噪比从-15.97 dB提高到1.24 dB，在低信噪比条件下准确率达到82.71%，在跨域泛化测试中分别达到84.93%和83.75%。此外，对来自不同声学采集设备的音频信号的诊断准确性进行比较进一步验证了该系统在低成本工业部署中的实用性和潜力。

1. 引言
故障诊断可以有效提高生产线的性能和产品的合格率[1,2,3]。基于声学信号的故障诊断方法具有很大的应用价值，主要是因为其非侵入性、对初期故障的高灵敏度以及丰富的多维信息[4,5]。许多研究人员致力于基于声学的故障诊断研究。初步研究在受控、无噪声的条件下取得了有希望的结果。Wang [6] 提出了一种基于多层次监督学习和自适应时频特征增强的故障诊断方法，在多个数据集上表现出色。Shan [7] 通过将变分模态分解（VMD）与梅尔频谱结合，构建了一个梅尔卷积神经网络（CNN）模型，并通过非接触式声学信号成功实现了电机轴承故障的诊断。然而，噪声问题仍然存在；为了解决这个问题，研究人员探索了各种途径。传统的信号处理技术，如小波变换，试图将噪声与有用信号分离。这一范式通过最近的进展不断得到改进。Niola [8] 使用低通有限脉冲响应（FIR）滤波器来减少加速度计信号中的噪声，以监测飞机混合电动推进系统。为了超越固定滤波器的局限性，将可学习的滤波机制直接嵌入到深度学习架构中已成为一种有前景的趋势。Chen [9] 提出了小波Kolmogorov–Arnold卷积长短期记忆（WKAConvLSTM），创新地将小波变换核参数化为卷积LSTM内的可学习组件。除了显式的滤波策略外，还开发了许多基于深度学习的方法来内在地抑制噪声干扰并减轻复杂环境中其他影响因素对故障诊断的影响。He [10] 提出了一种基于多声学参数聚类融合诊断的概念，可以有效地诊断和识别卫星飞轮轴承故障。Xiao [11] 开发了一种基于声学信号的自适应边缘堆叠自编码器，用于噪声域中的自适应去噪。Hou [12] 提出了一种稀疏多点最优最小熵反卷积调整（MOMEDA）方法，用于使用声学信号进行特征增强和轴承故障诊断。Wu [13] 提出了一种名为对抗性因果表示学习网络（ACRLN）的新智能故障诊断方法，以进一步实现特征解耦并减少冗余依赖性。Ji [14] 提出了一种基于并行稀疏滤波器的故障诊断方法，可以从声学信号中实现稀疏特征提取。Tang [15] 采用贝叶斯优化（BO）进行自适应高压学习，并构建了一个改进的CNN模型，用于液压活塞泵的故障特征提取和分类。尽管有这些进展，在真实的工业环境中，背景噪声不可避免地与目标机械的声学信号混合[16]，破坏了与故障相关的信息。因此，在这种干扰下，大多数现有算法的性能仍然显著下降，这突显了需要一种更鲁棒的方法，能够在复杂的声学场景中有效分离有用信号和噪声。为了解决这些限制，本文提出了一种新的DDAN。该网络的核心创新在于一个分层框架，它在实施高级模式识别之前对声学信号进行预处理。此外，为了处理损坏的特征，我们提出了一种嵌入在域对抗框架内的分层注意力机制，这种结构化方法明确地分离了噪声抑制和特征提取。同时，我们发布了一个声学轮毂电机故障诊断数据集，以促进基于声学的轮毂电机诊断领域的开放研究。本工作的主要贡献如下：
- 我们设计了一种分层注意力机制，并将其与堆叠自编码器系统结合，以在强烈的工业噪声下实现鲁棒的故障诊断。
- 构建并发布了基于轮毂电机生产线常见故障的公开可用声音数据集。
- 通过广泛的实验，我们证明了商用智能手机收集的声学数据可以用于我们的算法进行故障诊断，从而突出了低成本、便携式解决方案在工业部署中的潜力。

本文的结构如下：第2节详细介绍了所提出的方法论，包括基于DenseNet的去噪模块和SADAN模块。第3节描述了实验设置，包括声学信号采集过程、数据集构建和实现细节。第4节展示并讨论了实验结果，包括去噪性能、消融研究、计算效率以及在真实工业噪声条件下的比较结果。最后，第5节总结了研究并概述了未来研究的方向。

2. 方法论
为了应对噪声工业环境中鲁棒故障诊断的挑战，我们提出了一种新的DDAN。如图1所示，DDAN框架的操作包括两个主要阶段。在第一阶段，基于DenseNet的去噪模块作为智能预处理前端。它以原始的、被噪声污染的声学信号为输入，抑制背景干扰同时保留关键的故障相关特征，产生更干净的信号，然后将其输入到SADAN中。在第二阶段，SADAN结合了分层注意力机制，逐步细化特征并捕捉局部模式和全局依赖关系。此外，它通过梯度反转层进行域对抗训练，以学习噪声不变的特征表示，确保高诊断准确性。这种两阶段协同优化的设计使DDAN能够在具有挑战性的真实工业环境中实现可靠和通用的故障诊断。

2.1. 去噪系统
DenseNet是一种具有密集连接结构的卷积神经网络，在图像分类等任务中取得了优异的结果。我们的去噪模块采用了基于DenseNet的架构，以在噪声环境中保留微妙的故障特征。DenseNet的关键优势在于其密集的连接性。与特征可能在层间减弱的架构不同，DenseNet允许深层直接访问来自浅层的细粒度声学细节。这使得网络在复杂的噪声分离过程中保留原始信号特征，从而提高噪声和故障特征之间的区分度，并防止诊断信息的丢失。这种特征重用也有助于解决梯度消失问题，有助于训练能够模拟真实工业噪声中长距离依赖关系的深度网络。因此，该模块作为一个智能滤波器，利用多层次特征来抑制噪声，同时增强与故障相关的组件，从而为后续诊断提供更干净的输入。虽然DenseNet本身是一个成熟的架构，但我们在该模块中的核心创新在于将其应用于工业声学去噪，并结合了以下三个特定设计：（1）使用梯度检查点来克服硬件限制；（2）噪声掩码预测策略来保留故障特征；（3）为音频信号量身定制的联合时频损失约束。去噪系统的详细工作流程如图2所示。

2.2. SADAN
SADAN是DDAN的核心组成部分。SADAN将通道注意力、空间注意力和MHSA集成到一个分层级联结构中。具体来说，通道注意力自适应地抑制由背景噪声主导的频带，而空间注意力则专注于定位故障发生的时间和位置。通过建模全局上下文关系，MHSA使网络能够将孤立的故障脉冲组装成连贯的故障模式，从而增强其在严重噪声干扰下识别复杂故障模式的能力。经过注意力细化的特征通过堆叠自编码器的编码-解码架构进行进一步处理，以实现深度特征学习，同时通过重构损失确保与故障相关的信息的完整性。同时，引入了梯度反转层（GRL）以实现域对抗训练，迫使编码器学习噪声域不变的故障表示。因此，SADAN能够在具有严重噪声干扰的实际工业环境中实现有效的故障诊断。所提出的DDAN的详细工作流程如图3所示。

3. 声学测量
我们的研究是首次尝试在真实工业环境中应用旋转机械的故障检测系统，重点关注轮毂电机生产线中遇到的典型故障。在这项研究中，模拟了生产过程中的以下三种常见故障模式：磁铁断裂、定子上过多的霍尔粘附物以及过紧的轴承，如图4所示。声学信号是在一个小消声室中从三个方向使用OPPO Reno9智能手机（OPPO广东移动通信有限公司，东莞，中国）和ICP麦克风（型号130A23，PCB Piezotronics公司，纽约州迪普市）收集的，麦克风距离轮毂电机0.1米，电机在四种条件下（一个正常和三个故障）以200 RPM的速度运行。智能手机和麦克风以44,100 Hz的采样率记录音频数据，并使用ffmpeg（版本：7.2.0）以WAV格式存储。这些消声室记录作为纯声学信号样本。此外，从生产线（PL，以机器噪音为主）和工厂实验室（FL，以人类语音为主）收集的声学样本被用作真实的工业环境噪音样本。这些现实世界的噪音样本与纯电机声音信号在连续的帧中混合，以模拟在真实工业噪音干扰下的电机声音信号，如图5所示。图4展示了用于轮毂电机故障诊断的实验设置：(a) 所研究的主要故障类型的示意图，(b) 用于轮毂电机左侧的声学信号采集平台，以及(c) 电机上的声学信号采集过程。图5显示了声学信号分析结果：(a) 纯典型电机声学信号的梅尔频谱，(b) 70 dB(A) PL噪音的梅尔频谱，(c) 受70 dB(A) PL噪音影响的标准电机声学信号样本的梅尔频谱图，以及(d) 受PL噪音影响且信噪比为?16 dB的标准电机声学信号样本的梅尔频谱图。我们创建的数据集包含69,120个声学信号样本，其中包括2,880个纯电机录音和与PL和FL的真实噪音混合的增强集。这些增强数据集是通过将电机声音与不同dB(A)水平（60至80）和SNR水平（?8至?20 dB）的工业噪音结合而创建的，如表1所示。原始数据集、PL噪音数据集和FL噪音数据集分别指的是未受噪音影响、受PL噪音影响和受FL噪音影响的声音信号数据集，并进一步根据噪音强度和电机声学信号采集设备进行划分。表1提供了实验数据集和子数据集的概览。表2详细比较了电机声音信号（分别通过手机和麦克风采集）的平均值、最大值和最小值（以dB(A)为单位）以及信噪比（SNR），并与两种背景噪音（PL噪音和FL噪音）进行了对比。可以观察到，真实工业噪音的强度和频率会随时间随机变化。表2还展示了电机和噪音声学信号的详细分贝和SNR信息。需要注意的是，整个模型是使用TensorFlow GPU 2.16.1框架在配备AMD Ryzen-9 7945HX处理器（AMD公司，美国加州圣克拉拉）、NVIDIA GeForce GTX 4060 GPU和16 GB RAM的硬件上实现的。在实验过程中，数据被系统地划分为训练集（70%）、验证集（15%）和测试集（15%）。

4. 讨论与结果
4.1. 噪音去除性能
为了严格评估所提出的基于DenseNet的模块的噪声去除性能，我们将其与多种代表性的去噪方法进行了比较，包括小波变换[17]、频谱减法[18]、经验模态分解（EMD）[19]、U-Net[20]和ResNet[21]。为了公平比较，所有方法都在相同的数据集上进行了训练和测试，该数据集包含用智能手机收集的电机音频样本，其中PL噪音的混合声级为70 dB(A)。所有方法都使用了相同的训练数据、训练周期数和优化目标。训练周期数设置为100次，且不进行提前停止。每种方法运行了10次，并对结果进行了平均处理。评估指标包括去噪信号与纯电机信号之间的信噪比（SNR）和均方根误差（RMSE）。

如表3所示，未经任何处理的原始声学信号的SNR最低（?15.97 dB），RMSE最高（0.0886），这证实了去噪的必要性。传统方法，包括小波变换、频谱减法和EMD，逐渐提高了信号质量，SNR值介于?13.09 dB到?3.27 dB之间。然而，这些方法仍不如基于深度学习的方法。U-Net和ResNet的表现显著优于传统技术，U-Net的SNR达到了0.62 dB，RMSE为0.0131。值得注意的是，我们提出的方法在两个指标上都取得了最佳性能，SNR最高（1.24 dB），RMSE最低（0.0122）。这一改进证明了我们的基于DenseNet的去噪模块在保留故障相关特征的同时有效抑制了背景干扰的能力。图6中的梅尔频谱图视觉分析进一步证实了这一优势：与其他方法相比，我们的方法有效地抑制了宽带背景噪音，同时更好地保留了对于准确故障识别至关重要的谐波成分。这种在噪音抑制和特征保留之间的平衡使得我们的方法特别适合用于复杂嘈杂工业环境中的故障诊断系统。

4.2. 关注机制的消融研究
为了确保公平比较，所有方法都在相同的数据集上进行了训练和测试，该数据集包含用智能手机收集的电机音频样本，其中PL噪音的混合声级为?75 dB(A)，其他条件保持不变。如表4所示，不使用任何关注机制的领域适应学习（DAL）的准确率为94.69%，而引入单独的关注模块——通道关注、空间关注和MHSA——分别提高了1.85%、0.48%和2.31%。这表明MHSA作为一个单独模块提供了最大的好处，突显了在嘈杂环境中捕捉全局依赖性的重要性。通道-空间组合的准确率为97.03%，而将通道关注与MHSA结合后，准确率提升至98.86%，接近完整模型的性能。值得注意的是，空间关注和MHSA的组合准确率达到了97.40%。DAL在加速收敛和缩短运行时间方面发挥了关键作用，从表中的结果可以看出这一点。同时，除了通道+空间+MHSA之外的其他关注机制也包括在内。

4.3. 计算效率和推理速度
计算效率对于工业环境中的实际应用至关重要。为了公平比较并更好地反映模型性能，所有方法都在相同的数据集上进行了训练和测试，该数据集包含用智能手机收集的电机音频样本，其中PL噪音的混合声级为?8 dB。训练周期数设置为50，其他条件保持不变。这项测试旨在确定哪种模型能够在较少的训练周期和短时间内实现高准确率，从而适应工业的实际需求。

4.4. 在真实工业噪音干扰下的性能比较
为了评估所提出的DDAN方法的有效性，我们将其与几种代表性模型进行了比较，包括MobileNetV2、SqueezeNet和ResNet。表5总结了模型大小、推理速度和诊断性能方面的结果。SqueezeNet实现了最快的推理速度（2.93 ms）和最少的参数数量（0.74 M），但其准确率（85.37%）不足以进行可靠的故障诊断。MobileNetV2提供了更好的平衡，准确率为91.28%，推理时间为3.79 ms，但仍低于工业场景所需的性能。ResNet在参数数量（23.52 M）较多的情况下实现了高准确率（96.85%），但推理时间较慢（7.28 ms），这可能会限制其在资源受限的边缘设备上的部署。相比之下，我们的DDAN仅用了6.28 M参数就实现了最高的准确率（98.62%），比ResNet减少了73%），推理时间为4.62 ms，比ResNet快，仅略慢于MobileNetV2。这表明DDAN成功地在模型复杂性和诊断精度之间取得了平衡，非常适合需要同时满足高准确率和低延迟要求的实时工业应用。

4.5. 在真实工业噪音干扰下的性能比较
为了评估所提出的DDAN方法的有效性，我们将其与RAM[22]、CDTFAFN[23]、CBAM[24]、EfficientNetv2[25]和Wav2Vec2[26]进行了比较。图8展示了在不同数据集上测试的各种模型的混淆矩阵，该数据集包含用麦克风收集的电机音频样本，其中PL噪音的混合声级为?16 dB，其他条件保持不变。从图8可以看出，尽管CDTFAFN在强噪音干扰下表现最佳，但我们的方法表现第二，显示出在故障分类方面的改进，且混淆矩阵与对角线的偏差很小。这证实了我们的方法即使在具有挑战性的真实工业环境中也能有效区分不同类型的故障。表6作为图8的补充，记录了这六个模型的评估指标。其中，CDTFAFN和我们的方法实现了最高的准确率（分别为83.06%和82.71%），显著优于其他模型。我们的方法在召回率（82.71%）和F1分数（82.70%）方面表现出色，表明其在识别故障样本方面的强大能力。

4.6. 模型的泛化能力
为了进一步评估我们模型的泛化能力，我们增加了两种额外的评估方法。第一种方法是通过使用PL数据集中的样本来训练模型，然后使用FL数据集中的样本来测试该模型。第二种方法则交换了第一种方法中使用的训练集和测试集。采用这些评估方法是因为一个具有强大泛化能力的故障诊断算法即使在面对不同的环境噪声干扰时也应保持可靠的性能。此外，我们还通过跨领域实验评估了模型在领域偏移条件下的泛化能力。所有方法都在同一个数据集上进行了训练和测试，该数据集包含了使用智能手机收集的电机音频样本，这些样本中的噪声水平为PL或FL，混合声级为70 dB(A)。如表9所示，DDAN表现出很强的跨领域适应性。当在PL噪声上训练并在FL噪声上测试（PL-FL）时，DDAN的平均准确率为84.92%，优于所有基线方法；同样地，当在FL噪声上训练并在PL噪声上测试（FL-PL）时，其准确率为83.75%。这表明SADAN中的去噪模块和层次注意力机制能够有效地学习到不受噪声影响的特征，从而在噪声特征发生显著变化时仍能保持稳健的性能。相比之下，RAM和EfficientNetv2等方法在跨领域设置中的性能下降更为明显，这突显了它们对特定领域噪声模式的敏感性。在SADAN中，对抗性领域对齐模块起着关键作用，它促使编码器学习出对于故障诊断具有区分性的特征，同时保持对这些噪声领域的不变性。表9显示了不同方法的跨领域诊断准确率。

4.5. 轴承故障系统的性能比较
为了进一步评估我们模型在其他系统中的泛化能力，本章探讨了轴承系统。本研究使用的数据来自一个公开可用的在线数据集[27]。该数据集专注于在以下四种不同运行条件下的轴承故障诊断：正常状态、球体故障、内圈故障和外圈故障，并使用对应于这些故障状态的噪声信号。此外，通过随机应用三种技术——高斯白噪声添加、时间拉伸和音高移动——来增加样本数量。经典的算法GBDT、KNN和ResNet也被用于比较。如表10所示，实验结果表明，我们的方法在所有四个指标上均优于对比模型，实现了99.48%的精确度、99.46%的准确率、99.45%的召回率和99.46的F1分数。与表现第二好的ResNet相比，我们的方法在准确率上提高了约2.15%，并且在所有指标上的标准差更小，表明分类边界更加稳定。相比之下，依赖于手工特征设计的GBDT和KNN容易受到数据增强技术引起的数据分布变化的影响，从而限制了它们的泛化能力。所提出的方法在跨系统诊断中展现了出色的泛化性能，验证了其在实际工业应用中的潜力。

5. 结论
本研究设计了一种基于深度学习的新型故障诊断系统。研究结果表明，DDAN在去噪性能上显著优于传统方法，将原始信号的信噪比从?15.97 dB提高到了1.24 dB，并将均方根误差（RMSE）降低到了0.0122。在强噪声干扰（?16 dB）下，DDAN的诊断准确率达到82.71%。在跨领域泛化测试中，DDAN在不同场景下的准确率分别为84.92%和83.75%，显著优于对比模型。轴承故障数据集的结果也证实了我们的方法具有良好的泛化能力。本研究还比较了不同声学信号采集设备对故障诊断的影响，为未来的工业应用奠定了基础。此外，为了促进基于声学信号的故障诊断领域的开放研究，我们公开发布了一个包含四种类型轮毂电机和工业环境噪声的轮毂电机故障音频数据集。然而，我们的方法仅处理声学信号，这无法完全满足实际应用的需求。在未来的研究中，我们将进一步探索电机的在线监测方法，以提高产品的产量和生产线的质量。

热点排行