基于物理原理、具有抗噪声能力且易于解释的机器学习框架，用于检测和诊断可变制冷剂流动系统中的故障

《Energy and AI》：Physics-guided, noise-resilient and interpretable machine learning framework for fault detection and diagnosis in variable refrigerant flow systems

【字体：大中小】 时间：2026年04月30日 来源：Energy and AI 9.6

编辑推荐：

　　穆罕默德·雷沙伊尔|维诺德·卡德基卡尔|穆罕默德·I·哈桑·阿里机械与核工程系，工程与物理科学学院，哈利法科技大学，邮政信箱127788，阿布扎比，阿联酋 **摘要** 在变流量制冷剂（VRF）系统中，故障检测与诊断（FDD）通常通过使用基于干净数据集训练的复杂机

　　穆罕默德·雷沙伊尔|维诺德·卡德基卡尔|穆罕默德·I·哈桑·阿里
机械与核工程系，工程与物理科学学院，哈利法科技大学，邮政信箱127788，阿布扎比，阿联酋

**摘要**
在变流量制冷剂（VRF）系统中，故障检测与诊断（FDD）通常通过使用基于干净数据集训练的复杂机器学习（ML）模型来提高分类准确性来实现，但对传感器噪声的鲁棒性、分布变化下的泛化能力以及模型的可解释性考虑较少。此外，现有研究主要集中在制冷剂充注量和污染故障上，而关键组件级别的硬故障则尚未得到充分探索。为了解决这些问题，本研究提出了一种高鲁棒性、可解释的、基于物理原理的ML框架，用于仅利用内置传感器遥测数据进行VRF组件级别的故障检测。该框架引入了三种传统分类器（RF、SVC和XGBoost）的高噪声抗性物理信息（NRPI）变体，并通过基于课程的高噪声增强机制明确考虑噪声影响，同时结合事后物理指导的概率规则以模块化方式优化特定类别的预测。采用包括保留测试、独立离线验证和受控噪声应力测试在内的综合三阶段评估方法，来评估准确性、离线泛化能力和噪声鲁棒性。NRPI变体在所有传感器噪声水平上均显著优于其基线对应模型，其中NRPI-RF和NRPI-SVC的平均宏观F1分数分别达到了99.10%和99.13%。在不同噪声测试中，NRPI-XGBoost的平均宏观F1分数提升了38.15%，而NRPI-RF和NRPI-SVC分别提升了11.98%和4.38%。消融分析和可解释性研究表明，噪声感知训练增强了系统在加性高噪声下的整体鲁棒性，而物理指导规则提高了特定类别的可靠性。总体而言，所提出的框架为VRF系统的组件级别故障检测提供了一种准确、鲁棒且可解释的方法。

**1. 引言**
由于经济的快速发展和城市化的加速，建筑行业已成为全球主要的能源消耗领域之一。具体而言，建筑行业约占全球年能源消耗的50%，其中近90%的能源用于满足制冷、供暖和照明需求。根据国际能源署的数据，到2050年，因空调造成的全球能源需求预计将增加三倍。因此，提高暖通空调（HVAC）系统的效率是实现可持续性的关键步骤。在现有的HVAC技术中，VRF系统以其优异的热效率、较低的能耗和更高的热舒适度而闻名，这些因素促成了其在现代建筑中的广泛应用，并成为实现可持续发展目标的重要推动力。然而，基于VRF的HVAC系统容易发生多种故障，这些故障会显著增加能耗并降低运行效率。因此，故障检测与诊断（FDD）已成为VRF系统研究的重要方面。根据故障对系统性能的影响，HVAC系统中的故障可分为软故障和硬故障：硬故障会导致系统突然失效，而软故障则会导致性能逐渐下降。

**术语表**
- CNN：卷积神经网络
- PT2：排气压力（巴）
- DT：决策树
- RF1：通过蒸发器的制冷剂质量流量
- FDD：故障检测与诊断
- RF2：通过蒸发器的制冷剂质量流量
- HVAC：暖通空调
- T1：吸气温度（℃）
- ML：机器学习
- T2：排气温度（℃）
- NR：抗噪声
- NRPI：抗噪声物理信息
- T3：冷凝后的温度（℃）
- CPC：主成分分析
- T4：第一路冷却液温度（℃）
- IPC：物理信息
- T5：第二路冷却液温度（℃）
- RFR：随机森林
- SVC：支持向量分类器
- VRF：变流量制冷剂
- XGBoost：极端梯度提升
- λ：L2正则化项
- μ：平均值
- F1：宏F1分数

**1.1 HVAC系统中的故障检测方法**
目前，HVAC系统中的故障检测采用了多种方法，这些方法大致可以分为基于专家规则的方法、基于物理原理的方法和数据驱动的方法。随着信息技术的进步，机器学习（ML）模型在HVAC领域的故障检测应用中变得越来越重要。ML模型进一步分为监督学习和无监督学习模型。常见的监督学习技术包括SVC、RF和XGBoost；无监督学习技术包括主成分分析（PCA）和聚类。

VRF系统中最常见的故障包括制冷剂充注量不当、热交换器污染以及传感器/组件故障。制冷剂充注量不当尤为普遍，会降低系统的效率和制冷能力。为此，研究人员开发了许多模型来检测和诊断此类故障。例如，Yu等人通过修改D5.0决策树（DT）开发了一种VRF制冷剂充注量故障诊断模型，提高了整体诊断率4%。Shi等人使用ReliefF算法进行特征排序，并结合神经网络进行诊断，训练时间减少了98.8%。集成集成方法也被用于提高诊断准确性。近年来，深度学习模型也被应用于VRF系统的故障检测，因其具有更好的诊断性能。Hengda等人开发了一种基于一维卷积神经网络（1D-CNN）的独立模型和集成模型，用于检测和诊断制冷剂充注量不当问题，诊断准确率达到了97.4%。Zhang等人提出的策略在训练集和测试集中的诊断准确率分别提高了3.9%和4.02%。

**2. 故障类型与描述**
为了充分理解本研究的动机和实用性，有必要了解所研究的故障类型及其对VRF系统性能的影响。本研究重点关注三种关键故障类型：高压开关故障（F1）、室外机排气热敏电阻故障（F2）和室内机风扇电机故障（F3）。

- **高压开关故障（F1）**：高压开关通过断开电路来防止VRF系统压力过高。高压可能由制冷剂充注量过多、冷凝器气流不足或环境温度过高引起。正常情况下，当排气压力超过安全阈值时，开关会中断压缩机运行；但如果开关故障，即使未达到压力阈值，也会导致系统提前关闭。
- **室外机排气热敏电阻故障（F2）**：该热敏电阻用于检测排气管温度，故障可能由老化、电化学腐蚀或传感器漂移引起。如果热敏电阻低估了实际排气温度，压缩机可能会在过热状态下持续运行，导致压缩机烧毁或制冷剂损坏；反之，过高的读数可能导致不必要的系统关闭或调节效果不佳。
- **室内机风扇电机故障（F3）**：该电机负责在蒸发器盘管中循环空气，其故障会导致气流不足，从而影响热交换效率和舒适度。

**3. 研究方法**
本研究提出了一种抗噪声、可解释的、基于物理原理的机器学习框架，用于仅利用内置传感器遥测数据检测VRF系统中未充分研究的组件级别故障。具体而言，该框架引入了NRPI变体的传统监督分类器（RF、SVC和XGBoost），在不增加模型复杂性的前提下提高可靠性。与依赖复杂架构且通常在干净数据集上训练的现有方法不同，NRPI框架在训练过程中通过基于课程的高噪声增强机制明确考虑噪声影响，从而提高在噪声和分布变化条件下的鲁棒性和泛化能力。此外，还集成了一种轻量级的、基于物理原理的概率规则，以模块化方式优化特定类别的预测，而不修改底层模型结构。通过结构化的三阶段评估以及消融分析和可解释性分析，证明了NRPI变体在诊断准确性、鲁棒性和泛化能力方面的提升，为VRF故障诊断提供了稳健且可解释的框架。本研究并不旨在涵盖所有VRF系统的故障空间。相反，所选的故障是作为一组在实际中重要且易于实验处理的、关键的组件级硬故障的子集。具体来说，选择了高压开关、室外放电热敏电阻和室内风扇电机，因为它们的故障会直接影响系统保护、室外传感/控制以及室内单元的驱动，并可能导致显著的性能下降。这一选择也得到了文献的支持，大多数关于VRF故障诊断（FDD）的研究主要集中在制冷剂充量和污染故障上，而基于数据的突发组件级硬故障诊断研究相对较少。此外，所选故障是因为它们可以重复诱发、清晰验证，并且可以使用现有的VRF测试台和故障排查模块安全地进行研究，这对于构建用于监督学习的可靠标记数据集至关重要。其他重要的组件故障，如四通阀泄漏和电子膨胀阀堵塞、压缩机卡死等并未包括在内，因为它们在当前的测试台上无法作为可重复的基准故障模式进行测试。此外，这一选择也与工业实践一致，因为制造商的服务程序明确包括了保护设备、热敏电阻和风扇电机的故障排查[34,35]。因此，本研究关注的是一组相关且实验上可行的故障，而不是试图涵盖所有可能的VRF组件故障。用于检测和诊断这些故障的详细方法将在第3节中讨论。

下载：下载高分辨率图片（1MB）
下载：下载全尺寸图片
图1. VRF测试台的接线图，显示了所研究故障的位置

3. 方法论
本研究开发了RF、SVC和XGBoost分类器的基础版本和NRPI变体，用于检测和诊断VRF系统中的关键组件故障。进行了详细的性能比较评估，以评估这些模型在离线和噪声测试条件下的性能。所采用的系统方法在图2中进行了说明。

下载：下载高分辨率图片（847KB）
下载：下载全尺寸图片
图2. 本研究采用的系统方法概述

3.1. 实验设置和数据收集
这项故障诊断（FDD）研究的第一步也是最关键的一步是实验数据收集，这为开发RF、SVC和XGBoost分类器的基础版本和NRPI变体奠定了基础。VRF测试台和实验数据收集过程的详细信息分别在第3.1.1节（测试台描述）和第3.1.2节（数据收集）中讨论。

3.1.1. 测试台描述
本研究使用了与LABTECH International [36] 合作开发的VRF测试台。该测试台包括两个室内单元（盒式和壁挂式），它们由逆变器驱动的变速压缩机驱动，以及一个风冷式室外单元，如图3所示。测试台还配备了额外的故障模拟和测试模块，用于研究和诱发多种组件、传感器和系统级别的故障。测试台的技术规格列在表1中。VRF测试台的配置、传感器设置和数据采集系统反映了商用VRF安装中常见的制造商安装的仪器。本研究中使用的所有测量数据均来自内置的温度、压力、功率和流量传感器，无需依赖外部仪器。这种设计选择确保了所提出的FDD框架适用于只有机载遥测数据的实际VRF系统。

下载：下载高分辨率图片（686KB）
下载：下载全尺寸图片
图3. VRF测试台 a.) 正面视图 b.) 后视图

表1. VRF测试台的技术规格
参数值
电压（V） 220-240
相位（°）单相
频率（Hz） 50/60
最大电流（A） 30
名义冷却容量（kW） 11.2
制冷剂类型 R410A
制冷剂重量（kg） 2.9
吸气压力（kPa） 750 - 960
排气压力（kPa） 2310-2960

3.1.2. 数据收集
数据收集是这项FDD研究的第一步。通过一个结构严谨的实验协议，涉及在正常和故障条件下操作VRF测试台，构建了一个全面的数据集用于模型训练。该过程包括多个运行周期的数据收集，每个周期包括顺序激活故障，并在记录测量值之前进行测试台稳定期以确保条件稳定。数据记录频率设置为1分钟，稳定期符合空调、供暖和制冷研究所设定的协议[37]。每个实验周期从VRF测试台在正常条件下运行60分钟开始，然后依次诱发不同的故障（F1、F2和F3）。

故障模拟是使用集成在VRF训练器中的LABTECH故障排查系统进行的，该系统将预定义的电气故障电子插入控制电路中，如图4所示。对于每个实验，首先清除所有现有故障，将故障排查面板设置为电压模式，打开主电源，运行两个室内单元，将两个风扇的速度设置为高速，并相应调整温度设定点。然后让系统稳定大约10分钟，之后记录正常状态下的测量值。故障是通过在故障排查面板上选择故障编号并通过Enter按钮确认激活来逐一引入的。成功的故障插入通过指定测试点处的LED指示进行验证。具体来说，F1表示高压开关开路故障，在测试点16-17通过电阻和电压读数的变化进行验证；F2表示室外热敏电阻完全失效，在测试点28-29通过电阻和电压读数进行验证；F3表示壁挂式室内风扇电机故障，在测试点67-71通过电压/连续性模式的变化进行验证。激活后，每种故障状态保持60分钟，在此期间以1分钟间隔收集机载VRF传感器数据。每次运行结束后，使用RST按钮清除故障，将室内单元切换为关闭/开启状态，并让系统重新稳定大约10分钟，然后再测试下一个条件。电气测试点仅用于故障验证。用于模型开发的数据集完全来自内置的温度、压力、流量和功率传感器。

下载：下载高分辨率图片（363KB）
下载：下载全尺寸图片
图4. VRF测试台的故障排查系统

需要注意的是，尽管1080个正常类样本在数量上可能看起来有限，但正常数据集的充分性应从覆盖的操作范围来解释，而不仅仅是样本数量。本研究中使用的正常数据集对应于之前为开发VRF系统的混合灰箱能量预测框架而报告的相同实验数据[38]，其中在不同的操作和设定点条件下收集了正常运行数据。因此，该数据集捕获了关键热力学和操作变量的大量变化，包括部分负荷比、压力比、环境温度、室内空气温度、相对湿度和温度设定点。如[38]所述，并使用相同的VRF测试台和传感器配置获得的数据集，其操作范围涵盖了广泛的条件，部分负荷比大约在0.41到1.00之间，压力比在1.69到3.19之间，环境温度在27.12°C到39.75°C之间，室内空气温度设定点在16°C到24°C之间，相对湿度在23.81%到63.03%之间。这些范围表明数据集不仅限于一个狭窄的范围，而是反映了系统的多样化热力学状态和负荷条件。同时，需要认识到数据集并没有明确隔离所有可能的特殊操作模式。特别是，操作过程中可能间歇出现的油回流循环没有被单独识别或标记，而加热模式下的除霜操作也不在当前冷却模式实验的范围内。尽管如此，该数据集捕获了与所研究的故障场景最相关的广泛代表性冷却模式操作条件。

此外，本研究采用了完全平衡的数据集，以便对分类模型进行受控和无偏的评估，确保在训练和测试期间每个故障类别都有相同的代表性。这种平衡的数据集通常用于实验性FDD研究中，以促进跨类别的公平比较，并防止性能指标被多数类别主导[39]。然而，实际VRF系统的运行通常是类别不平衡的，正常运行比故障情况频繁得多。因此，尽管本研究中使用的平衡数据集本身并不意味着过拟合，但它可能相对于实际部署场景产生乐观的性能估计，特别是在正常运行下的误报行为方面。因此，当前结果应被视为对模型能力的受控基准评估，而不是在不平衡数据分布下的现场性能直接反映。

每个数据点包含了总共12个输入特征和分类标签（操作状态信息），这些信息是使用VRF测试台的软件模块在1分钟间隔内通过嵌入在测试台中的温度、压力、功率和流量传感器系列记录的。这些特征的选择符合在HVAC系统中进行的FDD研究的现有研究[40]。这些输入特征的详细信息以及正常和故障条件下的相应范围显示在表2中。图5展示了突出不同输入特征测量位置的示意图管道图。

表2. 用于开发不同故障分类模型的输入特征详细信息
输入特征范围-正常范围-F1 范围-F2 范围-F3
最小值最大值
吸气温度，T1（°C） 12.33 21.33 20.55 27.05 23.38 29.98 12.28 18.31
排气温度，T2（°C） 44.53 71.48 29.30 41.50 30.76 41.50 40.21 48.34
冷凝后温度，T3（°C） 26.37 35.16 20.70 26.63 23.41 27.91 24.41 27.12
液管1过冷温度，T4（°C） 13.16 31.25 14.65 23.87 19.04 25.32 15.06 22.41
液管2过冷温度，T5（°C） 13.16 30.85 15.62 23.92 19.04 25.42 11.25 23.93
蒸发器1出口温度，T7（°C） 7.10 18.84 16.13 25.29 21.28 27.20 7.57 17.90
蒸发器2出口温度，T9（°C） 9.86 19.79 17.19 26.34 21.99 27.83 9.71 16.75
通过蒸发器1的制冷剂质量流量，RF1（kg/s） 0.01 0.03 0.00 0.00 0.00 0.00 0.00 0.00
通过蒸发器2的制冷剂质量流量，RF2（kg/s） 0.01 0.03 0.00 0.00 0.00 0.00 0.01 0.02
吸气压力，PT1（bar） 7.41 10.88 11.59 15.45 13.78 16.31 17.91 10.33
排气压力，PT2（bar） 18.38 23.64 13.93 16.89 14.96 17.26 16.19 17.18
压缩机输入功率，IP（W） 31 190 176 22.50 23.42 2.82 3.62 39.10 368.9

下载：下载高分辨率图片（638KB）
下载：下载全尺寸图片
图5. VRF测试台管道网络的示意图，带有刻度标记，显示了用于提取特征信息的不同传感器的位置

3.2. 数据预处理
数据收集之后的下一步是数据预处理。为了公平比较基础版本和NRPI变体，采用了包括标签编码、数据分层和标准化的标准预处理流程。标签编码用于将分类故障标签转换为整数编码的类别。为此，使用LabelEncoder [41] 将Normal、F1、F2、F3故障转换为（0,1,2,3）整数编码的类别。第二个预处理步骤是对数据集进行分层，以确保所有类别在测试集和训练集中的比例表示。预处理步骤中的一个关键元素是使用StandardScaler实现的特征标准化技术。数学上，标准化过程通过去除每个特征（x）的均值并将其缩放到单位方差来表示（如公式（1）所示）。在[42]中找到了类似的特征转换表达式：
(1) xscaled = x ? μσ
其中xscaled是转换后的特征，μ是特征（x）的均值，σ是从训练数据计算出的标准差。标准化对于基于SVC的模型很重要，因为它对特征的相对规模敏感。然而，为了确保公平比较，标准化在所有考虑的模型中一致应用。这种一致的预处理框架实现了无偏的特征缩放和所有模型及数据集之间的类别平衡表示。

3.3. 模型开发
本研究使用了三种最先进的分类器，即RF、SVC和XGBoost，来开发六个模型，用于检测和诊断三种组件级别的硬故障。这六个模型被分为基础版本和NRPI变体。在区分基础版本和NRPI变体之前，了解分类器的实现和配置环境以及数学框架是必要的，这分别在第3.3.1节和第0节中讨论。

3.3.1. 模型实现和配置环境
所有模型开发、训练和评估都是使用Python 3.12.6进行的。数据预处理和分析使用NumPy 2.1.1和pandas 2.2.2实现。scikit-learn 1.5.2库用于标签编码、特征标准化、分层数据分割、通过GridSearchCV进行超参数优化以及RF和SVC模型的实现。XGBoost 3.0.2库用于实现XGBoost分类器。模型评估和可解释性分析使用scikit-learn和XGBoost的内置功能进行。图表和后处理使用Matplotlib 3.9.2生成。计算是在运行Microsoft Windows 11 Pro的系统上进行的，该系统配备了第11代Intel(R) Core(TM) i7-1185G7 @ 3.00 GHz处理器和16 GB RAM。没有使用GPU加速。为了提高可重复性，在数据分割、噪声生成和模型初始化过程中使用了固定的随机种子。3.3.2. 分类器3.3.2.1. 随机森林（Random Forest，RF）是一种基于集成学习的方法，它通过开发多个决策树（DTs）并结合它们的输出来提高预测性能并减少过拟合。这些不同的决策树是在原始数据集的自助样本上训练的，在每个节点分裂时，会随机选择一组特征用于决策制定。这种方法确保了模型的鲁棒性和泛化能力。从数学上讲，RF的目标是学习一个预测函数，该函数能够最小化随机特征向量（X）和目标标签（Y）组合分布的期望损失。对于分类任务，期望损失函数（L）如[43]中所定义：(2)L(Y,f(X))={0, if X=Y; otherwise}最小化特定观测特征（x）和可能类别标签（y）的期望损失的最优预测函数f*(x)是贝叶斯分类器，表示为：(3)f*(x)=argmax_y P(Y=y|X=x)RF通过M棵随机决策树的集成机制来预测这个f*(x)。因此，最终的分类器可以表示为：(4)f(x)=argmax_y ∑_m=1^M I(hm(x)=y)其中hm(x)表示第m棵决策树的预测，m=1,2,3,...,M，I是指示函数。这种投票方案可以平滑单个树的方差，在本研究中研究的多类故障诊断中特别有效。3.3.2.2. 支持向量分类器（Support Vector Classifier，SVC）SVC常用于HVAC系统中的故障诊断（FDD）[44]。这是因为它们能够解决由非线性、高维度、局部最小值和小样本量特征的复杂分类问题[15]。本质上，SVC是一种线性最大间隔边界分类器。因此，对于复杂分布，需要使用核函数。对于给定的训练数据集(xi, yi)，其中xi∈R且yi∈{1, -1}，软间隔SVC倾向于找到由超平面定义的决策边界：(5)w^Tφ(x) + b=0其中φ(x)是经过核变换的特征向量，b是截距，w是法向量。软间隔SVC通过核变换解决的优化问题如下：(6)min_w, b, ε ≤ ∥w∥^2 + C ∑_i∈N ε ≤ yi(w^Tφ(x) + b) ≥ 1 - ε_i，其中ε_i>0。3.3.2.3. XGBoostXGBoost也属于集成模型类别。然而，与并行训练决策树的RF不同，XGBoost是以分阶段的方式逐步构建决策树的。该算法利用梯度提升原理来纠正累积集成的残差误差。数学上，第t步的预测更新如下：(7)y^it = y^it-1 + ft(xi)其中ft∈?是在第t次迭代中添加的新决策树。分类器的功能是最小化规则化目标函数（L），该函数结合了可微分的凸损失函数（l）和树的复杂性惩罚项Ω(ft)。数学上，它在[17]中的表达式为：(8)L_t = ∑_i=1^N l(y_i, y^i(t)) + ∑_t=1^T Ω(ft)对于多类问题，l通常是softmax交叉熵。Ω(ft)通过控制叶子节点的数量T和叶子权重（ω_j）的大小来惩罚模型复杂性。它在方程(9)中表示为：(9)Ω(ft) = γT + 1/2 λ ∑_j ω_j^2j γ，其中γ是每个叶子节点的惩罚项，λ是L2正则化权重。3.3.3. RF、SVC和XGBoost的基础版本和NRPI变体的描述在这项工作中，使用了三种监督分类器，即RF、SVC和XGBoost，来开发六个不同的故障分类模型。每种分类器都有基础版本和NRPI版本。RF、SVC和XGBoost的分类器的基础版本和NRPI版本的开发涉及四个不同的步骤。第一步是数据预处理。所有分类器都采用了相同的预处理流程，以确保公平比较。该流程包括标签编码、分层数据分割和特征标准化。预处理步骤的详细信息已在第3.2节中阐述。模型开发的第二步是模型训练。基础版本和NRPI版本在训练方法上存在根本差异。具体来说，RF、SVC和XGBoost的基础版本直接在干净、标准化的数据上进行训练。这些基础版本的RF、SVC和XGBoost的超参数调优是通过GridSearchCV结合3折交叉验证系统地进行的。调整后的参数是特定于分类器的，其优化值总结在表3中。相比之下，RF、SVC和XGBoost的NRPI版本引入了两个重要的修改，以增强模型的鲁棒性和预测性能。首先，采用了课程式噪声增强方法，即在增强数据集上训练不同的分类器。增强数据集是通过在原始训练数据的输入特征中注入加性高斯噪声生成的。这种增强策略在第3.4节中有详细描述，使分类器能够在噪声传感器条件下更好地泛化并保持鲁棒性。其次，NRPI版本框架中引入了概率Sigmoid规则。该规则利用两个室内单元之间测量的制冷剂质量流量之间的物理关系，显式增强了NRPI版本识别F3故障的能力，特别是在噪声操作场景中。NRPI版本的超参数调优遵循与基础版本相同的方法。RF、SVC和XGBoost的NRPI版本的调整后超参数的详细信息也显示在表3中。最后一步是严格的模型评估。模型评估方法的详细讨论在第3.5节中提供。RF、SVC和XGBoost的分类器的基础版本和NRPI版本的模型开发过程如图6所示。需要注意的是，所提出的NRPI版本不修改底层RF、SVC或XGBoost分类器的内部数学结构、损失函数或优化程序。相反，通过从VRF系统中制冷剂质量流量之间的物理关系派生的事后概率混合规则来结合物理指导，同时通过基于课程的高斯噪声增强实现噪声韧性。表3. RF、SVC和XGBoost分类器的基础版本和NRPI版本的优化超参数细节分类器参数网格调整后的值基础版本NRPI版本基础版本NRPI版本RFn_estimators: [100, 200, 500], max_depth: [None, 10, 20], min_samples_split: [2, 5], min_samples_leaf: [1, 2]n_estimators: [100, 200, 500], max_depth: [None, 10, 20], min_samples_split: [2, 5], min_samples_leaf: [1, 2]n_estimators: 100max_depth: Nonemin_samples_split: 2min_samples_leaf: 1n_estimators: 200max_depth: 20min_samples_split: 2min_samples_leaf: 1SVCkernel: ["rbf", "poly"], C_SVC: [0.05, 0.1, 10, 100], gamma: ["scale", "auto", 0.01, 0.1]kernel: ["rbf", "poly"], C_SVC:: [0.05, 0.1, 10, 100], gamma: ["scale", "auto", 0.01, 0.1]kernel: rbfC_SVC:: 10gamma: scalekernel: rbfC_SVC:: 100gamma: 0.1XGBoostn_estimators: [50, 100, 200], max_depth: [3, 5, 7], learning_rate: [0.01, 0.05, 0.1], reg_alpha: [0, 0.5, 1], reg_lambda: [1, 2, 5]n_estimators: [50, 100, 200], max_depth: [3, 5, 7], learning_rate: [0.01, 0.05, 0.1], reg_alpha: [0, 0.5, 1], reg_lambda: [1, 2, 5]n_estimators: 50max_depth: 3learning_rate: 0.01reg_alpha: 0reg_lambda: 1n_estimators: 200max_depth: 5learning_rate: 0.1reg_alpha: 0reg_lambda: 5下载：下载高分辨率图片（846KB）下载：下载全尺寸图片图6. RF、SVC和XGBoost分类器的基础版本和NRPI版本的开发方案3.4. 加性高斯噪声注入为了提高不同故障分类模型的噪声韧性和鲁棒性，添加了加性高斯噪声。故障分类模型使用内置的传感器信息来区分不同的故障。然而，传感器经常受到噪声的影响，这可能导致故障分类性能较差。因此，在NRPI版本中实现了一种噪声抵抗策略。该策略受到课程学习技术的启发，涉及在训练数据的输入特征中注入受控的加性高斯噪声，以模拟传感器读数的真实世界变化。在[45]中也发现了类似的方法，用于增强预测维护应用的模型鲁棒性。需要澄清的是，在本研究中，加性高斯噪声被用作内置VRF信号中传感器测量不确定性的随机成分的控制性一阶表示。这种选择在物理上和统计上都是合理的。在实际的传感系统中，随机测量不确定性通常来源于电子噪声、量化效应和多个小独立干扰的累积，根据中心极限定理，这些可以合理地用高斯分布来近似。因此，高斯噪声在工程和信号处理研究中被广泛用作随机传感器不确定性的基线模型[46]。从机器学习的角度来看，输入噪声注入也是一种成熟的正则化技术，可以促进更平滑的输入-输出映射和更好的泛化性能[47]。进一步强调的是，本研究的主要目标是确保即使在存在随机传感器不确定性的情况下，开发的分类器也能准确识别组件级别的故障。在实际的VRF操作中，从内置传感器获得的测量值本质上受到噪声的影响，因此，可靠的FDD模型必须在这样的条件下保持稳定的决策边界。因此，引入的高斯噪声代表了健康传感器信号中的随机不确定性，使模型能够学习与每个故障类别相关的噪声不变的特征模式。相比之下，其他形式的信号损坏，如偏差/漂移[33]、完全的传感器故障、脉冲干扰或周期性干扰通常与传感器故障或结构异常相关，这些本身构成FDD框架内的可诊断故障条件。因此，直接将这些效应纳入噪声模型会将测量不确定性与故障特征混淆，可能扭曲类别边界，从而破坏隔离组件级别故障的目标。因此，本研究有意关注加性高斯噪声作为基线鲁棒性场景，确保分类器能够在噪声存在但其他方面有效的测量下保持准确的故障分类。这构成了可靠部署的必要第一步。将框架扩展到包含额外的噪声结构和明确的传感器故障场景（如漂移、脉冲干扰和相关系统级效应）被认为是未来工作的重要方向。方程(10)中显示的数学公式表达了噪声添加过程：(10)X_n = X + ε(0, σ^2)其中X是原始训练特征矩阵，X_n是结果噪声特征矩阵，ε(0, σ^2)是从正态分布中抽取的噪声项。在噪声项中，μ=0且σ=NL（σ≤[0.00, 0.20]）。高斯噪声添加过程遵循了一个课程式噪声计划，该计划将噪声水平从20%线性降低到0%，共21个阶段。需要注意的是，在每个阶段，整个训练数据集都会被扰动并保留。这种技术形成了一个逐渐去噪的增强数据集序列，使分类器接触到广泛的数据保真度。这个噪声添加过程创建了21个具有不同噪声水平的增强版本的训练数据。最终的训练数据集是原始数据集的增强版本。然后使用这个增强数据集来训练不同分类器的NRPI版本，确保学习到的决策函数不仅准确，而且对传感器输入的扰动具有抵抗力。这种噪声计划的理由是构建一个从严重损坏的样本到干净测量的逐步去噪的训练扰动谱，而不是依赖于单一的固定噪声水平。输入噪声注入被认为是一种正则化机制，可以促进更平滑的输入-输出映射和更好的泛化性能[46]。此外，课程式和计划式的去噪研究表明，暴露于更高程度的损坏倾向于强调粗糙和噪声不变的结构，而较低的损坏程度则保留了更细致的区分信息[48]。因此，采用了从20%降低到0%的逐步减少计划，因为这样可以在整个增强范围内提供均匀分布的扰动严重程度，避免相邻阶段之间的突然变化，并且不引入额外的非线性调度超参数。最大增强水平限制在20%用于训练，而25%的噪声水平保留用于评估，作为一个故意设置的更严格的训练外压力情况。3.5. 模型评估策略和指标采用了全面的多层评估框架来评估RF、SVC和XGBoost分类器的基础版本和NRPI版本的分类性能。与完全依赖于测试-训练分割的传统验证方法不同，本研究实施了一个三阶段评估协议，包括在a.) 30%的保留测试集b.) 完全未见过的离线测试集以及c.) 原始训练数据集的多个噪声版本上评估不同模型。测试指标和评估方案的详细信息在3.5.1评估指标和3.5.2评估方案中进行了讨论。3.5.1评估指标采用了四个标准指标，基于宏观平均值来均衡衡量所有类别的性能（N、F1、F2和F3）。此外，还生成了混淆矩阵，以提供关于类别预测结果的详细信息。每个指标的详细信息及其数学公式显示在表4中。类似的评估指标集也在[49]中报告。表4. 评估指标的详细描述和数学公式

评估指标 | 描述 | 数学公式
---------|--------|----------
准确性 | 表示正确分类样本的总体比例 | Accuracy = 1 - ∑(yi ≠ yi) / N
精确度 | 表示给定类别中正确预测实例的比例 | Precision = TPc / (TPc + FPc)
宏观精确度 | 表示所有被预测为该类别的实例中正确预测实例的比例 | Precisionmacro = ∑(Ci ≠ Ci') / C
召回率 | 估计实际属于该类别的实例被正确识别的比例 | Recall = TPc / (TPc + FNc)
F1分数 | 它是精确度和召回率的调和平均值，提供了两者之间的平衡 | F1分数 = 2 * (Precision * Recall) / (Precision + Recall)

3.5.2评估方案
在第一阶段，所有模型都在原始训练数据的30%保留测试集上进行了评估。这种分割测试用于提供标准的基线分类性能。然而，原始训练数据是分层且干净的。因此，为了真正衡量不同模型的分类性能，还在一个完全未见的数据集上进行了二次评估测试。第二次评估测试是在一个在训练期间未使用过的完全独立的数据集上进行的。该数据集包括三小时的连续正常系统运行和三小时的故障诱导运行，每种故障（F1、F2和F3）在不同运行条件下模拟了60分钟。这次评估测试提供了不同模型真实泛化能力的洞察。

前三组测试是在无噪声数据集上进行的。然而，传感器噪声是实际HVAC系统中的一个常见挑战。因此，设计了第三阶段的评估来检查模型在传感器噪声下的鲁棒性。为了进行这项测试，第一步是通过在输入特征中注入加性高斯噪声来生成原始数据集的五个噪声变体，噪声水平分别为其标准差的5%、10%、15%和25%。随后，对这些噪声数据集上每个模型变体的预测性能进行了严格评估。这些噪声水平并不是为了代表制造商指定的传感器精度范围或通用的物理噪声定律，而是被定义为标准化的扰动严重程度级别，它们提供了一个无量纲且可比较的鲁棒性尺度，适用于具有不同单位和大小的异构变量，包括温度、压力、流量和功率。在这种解释下，5%的情况代表一个轻微的扰动级别，而10-25%则对应于逐渐加剧的应力测试条件。25%的水平被有意包括进来作为一个保守的训练外鲁棒性案例，因为训练期间使用的课程增强从20%降低到了0%。因此，噪声数据的结果应该被解释为一个受控的传感器扰动敏感性分析，而不是所有现实世界传感器损坏条件的完全再现。

3.5.3消融方法
为了量化两种增强策略（即课程噪声训练和在提出的NRPI框架中使用的物理引导概率规则）的单独贡献，通过引入每个分类器的中间变体来进行了一项消融研究。除了原始基础模型和NRPI模型外，还为三个分类器中的每一个定义了两个额外的变体。第一个是仅噪声变体（NR），通过使用课程高斯噪声计划进行训练，同时省略了事后的物理引导规则。第二个是仅物理信息变体（PI），通过在训练期间不使用噪声增强，将事后的物理引导规则应用于基础分类器输出。由于这两种增强策略在不同的阶段起作用并影响模型行为的不同方面，因此使用了两个互补的消融比较。物理引导规则修改了F3类的后验概率。因此，其单独的影响是使用F3特定的F1分数在独立的离线数据集上量化的，其中NR和NRPI变体之间的直接比较隔离了噪声训练后的规则增量贡献。基础模型被保留作为上下文参考。相比之下，噪声训练旨在提高对加性白高斯噪声的整体鲁棒性。因此，其单独的贡献是使用在5%、10%、15%和25%高斯噪声下生成的噪声测试数据集的宏观F1分数来评估的。在这种情况下，PI和NRPI变体之间的直接比较隔离了添加噪声训练的效果，因为两个变体共享相同的物理引导后处理规则，仅在训练期间是否使用了课程噪声增强方面有所不同。基础模型再次被保留作为参考。这种消融设计允许分别量化两种增强策略的影响，从而支持对完整NRPI框架报告的增益进行更清晰的归因。

3.6可解释性分析
本研究的最后一步是对所有考虑的模型进行全面的可解释性分析。对于RF分类器，估计了模型内在的Gini杂质度以提取特征重要性。由于RF是一个基于最大杂质减少来决定分割的DTs集成，Gini指数提供了一个有效总结在决策中起重要作用的特征的方法。数学上，Gini杂质度在[50]中表达为公式（18）。(18)Gini(n) = 1 - ∑(Ci ≠ Ci') / Pc。然后，每个特征的重要性被估计为使用该特征进行的所有分割所产生的加权杂质减少之和。

SVC分类器不像RF或XGBoost那样固有地提供特征重要性分数。因此，采用了模型不可知的基于排列的特征重要性方案。这种方法测量当特征值随机打乱时预测性能的下降。数学上，基于排列的特征重要性（PIj）定义为：(19)PIj = Morig - Mjperm，其中Morig是基线性能指标（宏观F-1分数），Mjperm是在多次重复后排列特征j后的指标。在[51]中也找到了类似的基于排列的特征重要性表达式。

对于XGBoost，选择了基于增益的特征重要性方案，因为它与分类器优化目标直接对齐。增益指的是在梯度提升树中分割过程中每个特征所贡献的损失减少。数学上，基于总增益的特征重要性（Gainj）可以表示为：(20)Gainj = ∑s?SjGains，其中Gains是分割（s）的贡献，并使用公式（21）计算。(21)Gains = 1 / [2 * (GL2HL + λ + GR2HR + λ - (GL + GR))^2 / (HL + λ)] - YG，H是损失的一阶和二阶梯度统计量。下标L和R分别描述左分割和右分割。在XGBoost文档[52]中也找到了类似的增益表达式。

需要注意的是，对于RF、SVC和XGBoost的基础变体，Gini杂质度、特征排列分析和增益提供了直接的特征重要性估计。然而，它们只能反映课程噪声训练对NRPI变体特征重要性的影响。它们没有反映在预测期间应用的事后概率Sigmoid规则的影响。因此，事后进行了额外的规则影响分数分析，以评估概率Sigmoid规则对NRPI-RF、NRPI-SVC和NRPI-XGBoost预测F3故障类别能力的影响。对于每个测试样本（k），F3预测概率的变化计算为：(22)ΔPk(NRPI)(F3) = Pblendk(F3) - Pwithout?blendk(F3)，其中Pwithout?blendk(F3)是仅使用课程噪声训练的基础变体的预测概率，Pblendk(F3)是混合后的F3最终预测概率，数学表达为：(23)Pblendk(F3) = λPmodel(F3) + (1 - λ)σ(α(RF2?RF1)?β)，其中λ是混合权重，σ是应用的Sigmoid，α和β控制规则的激活。Pmodel(F3)是RF、SVC和XGBoost模型在没有事后规则混合的情况下进行的预测概率，σ(α(RF2?RF1)?β)是概率规则分数。

重要的是要注意，可解释性是通过分析特征依赖性和规则影响来解释模型决策行为的，而不是通过引入新的可解释人工智能（XAI）方法。这种明确的分离确保了基线和NRPI变体之间的直接可比性，并且性能改进可以归因于所提出的增强。

4. 结果和讨论
本节详细分析了不同故障对VRF系统特征的影响，然后全面评估了针对关键组件故障开发的FDD模型的分类性能和可解释性。

4.1 实验分析
4.1.1 无噪声的实时分析
图7突出显示了代表VRF循环不同状态点的不同温度传感器的实时变化，这些状态点在正常和故障操作模式下有所不同。T1和T2分别代表压缩机的进气口和出气口的吸入口和排出口温度。在正常操作模式下，这些状态点会根据冷却需求变化以保持所需的压缩机功率。然而，很明显，在不同的故障模式F1和F2下，T1显著增加而T2显著降低，以至于压缩机的输出功率可以忽略不计或非常小。

图7. 正常操作和故障激活期间基于温度的状态变量的实时变化：(a) 吸入口和排出口温度（T1, T2），(b) 冷凝器和过冷温度（T3, T4, T5），以及(c) 蒸发器出口温度（T7, T9）。右侧的子图显示了不同操作模式的放大图像视图。T3代表冷凝剂的温度。同样，T4和T5分别对应于液体管线1和2中的过冷剂温度。这些特征的时间分布表明，在故障F1和F2条件下，T3显著下降。此外，当VRF系统在故障F1和F2模式下运行时，观察到T4和T5增加。值得注意的是，在F3故障模式下，只有T4上升，而T5基本不受影响。这种模式发生是因为在F3模式下，只有壁挂式室内单元的风扇电机发生故障，而盒式室内单元继续正常运行。从热力学的角度来看，T3、T4和T5相互作用以调节相应液体管线中的过冷程度，以响应正常和故障条件。

在蒸发器侧（低压侧），T7和T9分别代表壁挂式和盒式蒸发器的制冷剂出口温度，在故障条件下表现出异常高的值。这种行为仅在系统在F1和F2故障模式下发生。然而，在F3故障模式下，只有T7表现出异常高的值，因为VRF系统继续运行以满足盒式室内单元的冷却需求。

除了温度传感器读数外，正常和故障操作模式的影响还反映在VRF系统的流量、压力和功率传感器读数上。图8显示，在F1和F2模式下，PT1、PT2、RF1和RF2在故障条件下经历了显著变化。PT1和PT2在F1和F2故障模式下动态调整它们的值，使得压缩机的压缩比变得可以忽略不计。此外，RF1和RF2的值降为零。这些变化导致压缩机产生的功率可以忽略不计。相比之下，F3模式使系统在部分功能状态下运行，仅以满足盒式室内单元的冷却负荷。这从PT1和PT2稳定在中间值可以看出，只有RF1在系统处于F3模式时显著降低。

总体而言，输入特征的实时分析提供了关于正常和故障操作条件对VRF循环状态参数影响的关键洞察。这种理解是至关重要的，因为这些参数构成了用于开发、训练和验证所提出的RF、SVC和XGBoost分类器的基础数据集。4.1.2. 带有噪声的实时分析所有模型都是使用实时内置传感器信息开发的。然而，这些传感器经常受到噪声的影响。因此，为了确保鲁棒性，通过在原始数据集中注入加性高斯噪声，使RF、SVC和XGBoost分类器的NRPI变体能够抵抗随机传感器不确定性。高斯噪声的添加过程遵循了一个逐步减少噪声水平的计划，从20%线性降低到0%，共分为21个阶段。最终的训练数据集是原始数据集的增强版本。图9突出了四个代表性特征的实时变化及其相应的噪声分布，以展示这种逐步噪声训练的过程。下载：下载高分辨率图像（2MB）下载：下载全尺寸图像图9. 在不同加性高斯噪声水平下，T1、PT2、RF2和IP的传感器读数的实时变化及其相应的噪声分布每个子图的左侧显示了在5%、10%和20%噪声水平下T1、PT2、RF2和IP的时间演变。观察到随着噪声水平的增加，原始测量值周围的波动逐渐增大，这直观地展示了模型在训练过程中需要适应的信号失真。右侧的图表展示了每个选定特征的加性噪声的经验分布。正如预期的那样，所有分布都接近零均值高斯分布，且噪声水平越高，分布范围越广。这些图表证实了应用于不同输入信号的噪声在性质上是一致的，并且其幅度是可控的，从而增强了增强过程的可重复性和可解释性。虽然图9中只展示了这四个特征，但相同的噪声注入过程被应用于每个输入变量，所有特征都表现出几乎相同的分布行为（有关其他特征的时间变化及其相应的噪声分布，请参见补充图S1和图S2）。4.2. 性能评估为了全面评估所开发模型的性能，使用了第3.5.2节中详细讨论的三阶段评估方案进行评估。4.2.1. 性能评估（无噪声数据集）在第一阶段，每个模型都在原始训练数据的分层30%保留集上进行了测试，以确保各类别之间的平衡。这项测试提供了一个在训练和测试子集之间特征分布一致的受控环境中的基线性能估计。然而，为了检验不同模型的故障特定泛化能力，还在一个完全未见过的数据集上进行了离线评估测试。未见过的数据集包括来自VRF测试台的三个小时的正常运行数据，以及每种故障条件下一小时的故障数据，所有数据都是在不同的系统运行设置下记录的。图10展示了RF、SVC和XGBoost的基础变体和NRPI变体在两种评估场景下的准确性、精确度、召回率和F1分数的比较分析。显然，所有六个模型在原始训练文件的30%保留集上的测试中都达到了接近完美的性能。这可以归因于分层采样和数据集的清洁、均匀性。然而，在离线未见过的数据集上测试时，不同模型的性能普遍下降。在基础变体中，XGBoost分类器的性能下降最为显著，其性能指标下降到了大约65-72%，而基线性能测试中的得分接近完美。相比之下，RF和SVC模型的基础变体保持了强大的分类能力，所有指标在离线测试中都超过了80%。下载：下载高分辨率图像（614KB）下载：下载全尺寸图像图10. 不同模型（30%保留集和未见过离线数据集）的比较性能分析有趣的是，XGBoost的NRPI变体与其基础对应物相比显示出显著的改进，这突显了结合逐步噪声训练和物理引导的概率Sigmoid规则混合在减轻过拟合和改善所考虑故障的泛化能力方面的显著好处。相反，RF和SVC的NRPI变体从噪声抗性和物理引导策略中获得了适度的益处。图11展示了与它们的基线30%保留集测试相比，不同模型的分类性能相对下降的情况。显然，RF、SVC和XGBoost的NRPI变体的下降幅度小于它们的基线对应物。RF和SVC的基础变体显示出与它们的NRPI变体相似的下降幅度，这再次证明了由于集成平均和最大边界优化而具有的固有韧性。相反，XGBoost的基础变体的性能下降最为明显，准确率和F1分数下降了超过30%。然而，XGBoost的NRPI变体从逐步噪声训练和物理引导规则中获益最多，这从其评估指标的最小减少中可以看出。下载：下载高分辨率图像（259KB）下载：下载全尺寸图像图11. 不同模型相对于其基线性能的评估指标的性能下降可以推断出，在30%保留集上的测试仅提供了基线性能，并不能保证不同模型在离线测试条件下的故障特定泛化能力。在未见过的数据集上对不同模型的评估显示，SVC通过其最大化边界的优化和RF通过集成装袋机制本质上具有防止过拟强的强大机制。因此，RF和SVC的基础和NRPI变体表现出相似的性能。相比之下，XGBoost在干净、结构化的数据上更容易过拟合。因此，噪声抗性训练和物理引导规则的集成方案显著提高了XGBoost在离线环境中的故障分类能力。为了真正衡量噪声注入策略和物理引导的概率Sigmoid规则的影响，第4.2.2.4.2.2. 噪声下的性能部分系统地评估了所开发模型的噪声鲁棒性。通过在输入特征中注入加性高斯噪声，创建了原始训练数据的修改后的噪声版本，噪声水平在5%到25%之间变化，并在噪声数据集上评估了不同模型的性能，包括准确性、精确度、召回率和F-1分数。重要的是要理解，本节中介绍的基于噪声的评估特别检查了模型对应用于输入特征的传感器级加性干扰的鲁棒性。这些测试旨在通过量化在测量不确定性增加下的性能下降来补充清洁和离线评估，而不是模拟所有可能的真实世界操作干扰。因此，报告的鲁棒性结果应在传感器扰动抵抗的范围内进行解释。图12强调了加性高斯噪声对RF、SVC和XGBoost的基础变体和NRPI变体的不同评估指标的影响。显然，NRPI变体在所有噪声水平上都优于基础变体。此外，噪声水平与故障分类性能呈负相关，因为评估指标随着噪声水平的增加而下降。在所有加性高斯噪声水平上，RF模型的NRPI变体的准确性、精确度、召回率和F-1分数分别比其基础对应物高出11.91%、11.61%、11.91%和11.98%。同样，SVC模型的NRPI变体在故障分类准确性、精确度、召回率和F-1分数上分别提高了4.23%、4.13%、4.23%和4.38%。逐步噪声训练和混合规则对XGBoost分类器的影响最为显著，其NRPI变体的准确性、精确度、召回率和F-1分数分别比其基础变体提高了32.11%、32.15%、32.11%和38.15%。NRPI变体相对于其基础变体的优越性能归因于代码架构中的两个集成增强。首先，逐步噪声通过训练期间的信号扰动提高了不同模型的鲁棒性。其次，通过Sigmoid规则混合结合领域知识有助于在噪声条件下的F3故障分类。然而，NRPI技术带来的性能提升对XGBoost和RF算法最为有效，而对SVC的提升较为有限。下载：下载高分辨率图像（610KB）下载：下载全尺寸图像图12. 不同噪声水平下RF、SVC和XGBoost模型的基础变体和NRPI变体的a.) 准确性，b.) 精确度，c.) 召回率和d.) F-1分数的变化为了更深入地了解逐步噪声训练和概率Sigmoid规则混合的影响，图13展示了不同模型的混淆矩阵。混淆矩阵代表了在不同噪声水平下使用原始训练文件（输入特征中有25%高斯噪声）进行测试时不同模型的分类性能（有关其他噪声水平下模型的混淆矩阵的示意图，请参见补充图S3-S6）。对于RF分类器，很明显，在其基础形式下，RF分别做出了726、929、1042和1080个准确的F1、F2、F3和N预测。它主要将F1误分类为F2，将F3误分类为N。然而，逐步噪声训练和概率Sigmoid规则混合显著提高了分类准确性，这从NRPI变体的混淆矩阵中可以看出。RF的NRPI变体分别做出了1016个准确的F1预测，1034个准确的F2预测，以及100%准确的F3和N预测。同样，SVC的基础和NRPI变体的混淆矩阵显示，基础SVC模型显示出更好的原始泛化能力，但仍然将163个F1样本误分类为F2，将305个F2样本误分类为F1。然而，NRPI-SVC版本仅分别有64个和46个不准确的F1和F2预测。有趣的是，SVC的基础和NRPI变体对F3和N的操作状态几乎都做出了100%准确的预测。当在输入特征中有25%加性高斯噪声的数据集上进行测试时，XGBoost的基础变体的表现最差。这可以从其混淆矩阵中得到确认，因为它分别只做出了125、911、1032和1060个准确的F1、F2、F3和N预测。此外，它还做出了42个不准确的F3预测，这是任何模型在F3分类中最不准确的预测。然而，XGBoost从逐步噪声训练和概率Sigmoid规则混合中受益最多，这从其NRPI变体的混淆矩阵中可以看出，分别做出了1012、1024、1042和1080个准确的F1、F2、F3和N预测。下载：下载高分辨率图像（485KB）下载：下载全尺寸图像图13. 在25%高斯噪声水平评估测试下，a.) RF，b.) SVC和c.) XGBoost的基础和NRPI变体的混淆矩阵总体而言，可以得出结论，所有分类器的NRPI变体都优于基础变体。此外，SVC表现出更好的原始性能，因为它从逐步噪声训练和概率Sigmoid规则混合中受益适度。RF和XGBoost从逐步噪声训练和概率Sigmoid规则混合中受益显著。为了理解RF、SVC和XGBoost的基础变体和NRPI变体的决策机制，第4.3节讨论了详细的可解释性分析。4.2.3. 泛化能力、外部验证和在线部署的可行性所报告的泛化能力应理解为平台内的泛化能力，适用于未见过的操作条件和对高斯噪声的鲁棒性，而不是跨所有VRF系统的通用转移能力。使用独立的离线数据集引入了相对于分层保留分割的有意义的分布偏移，提供了对模型性能的更严格评估。在这种条件下，NRPI变体始终保持比其基线对应物更强的性能，表明泛化能力超出了标准的训练-测试验证。同样，在受控的加性高斯扰动下，NRPI变体表现出一致更好的性能，证实了它们对内置测量中传感器噪声的增强鲁棒性。对于所考虑的封闭集硬故障，该框架显示出对其他VRF系统的潜在转移能力。这些故障破坏了基本的系统功能，即保护机制、传感/控制过程和室内单元驱动，这些在VRF架构中是常见的。因此，只要具备可比较的内置遥测功能，它们预计在温度、压力、制冷剂流量和压缩机功率等测量变量上产生质量相似的信号。然而，定量响应特性（包括幅度、动态和特征分布）本质上是系统依赖的，并受到系统容量、配置、控制逻辑和制冷剂类型等因素的影响。因此，当前结果应被视为展示了方法层面的鲁棒性和潜在的跨系统适用性，而不是确立的外部泛化。需要通过对不同制造商、容量、制冷剂和配置的多个VRF系统进行验证，以严格评估可转移性并确定任何必要的重新校准或领域适应。这仍然是未来工作的一个重要方向。从在线部署的角度来看，所提出的框架旨在作为一个计算轻量级的在线诊断层，而不是一个复杂的数字孪生或重新训练的实时学习器。本研究中使用的所有输入数据均来自VRF测试台已有的制造商风格的内置温度、压力、功率和流量传感器，这些传感器代表了商业系统中可用的仪器。推理阶段基于每分钟采样一次的12个特征输入向量，并包括评估一个训练有素的RF、SVC或XGBoost模型，在适用的情况下，随后使用现有的质量流量相关信息进行简单的事后概率规则处理。这原则上使得该框架适用于监督式实时实施。然而，实际的在线现场部署（包括控制器在环验证、嵌入式延迟基准测试和跨制造商测试）尚未得到展示。因此，该框架应被视为面向部署且在架构上是可行的，但尚未完全验证其在多样化VRF平台上的操作在线部署能力。

4.3. 消融研究
消融研究验证了完整的NRPI框架的性能提升并非源自单一机制，而是来自噪声训练和物理引导规则的分类器依赖性贡献。5使用F3特定的F1分数隔离了物理引导规则对独立离线测试的影响，因为事后规则仅修改了分配给F3类的概率。对于RF，仅噪声训练就将F3特定的F1分数从90.23%提高到了93.75%，而加入物理引导规则后进一步提高了6.67%，相对于独立的NR变体有所提升。这表明物理引导规则为F3提供了有意义的额外校正，特别是在不确定的离线测试条件下。对于SVC，F3特定的F1分数从基础模型的92.31%下降到独立NR变体的82.76%，但在应用物理引导规则后增加到92.60%，相对于独立NR变体提高了11.89%。这表明，在未见过的离线环境中，单独的噪声训练并不会改善SVC的F3决策边界，因为它可能会对其产生负面影响，而物理引导规则则作为一种强大的校正机制，恢复了性能并略有提升。对于XGBoost，两种策略都显著贡献了性能提升。F3特定的F1分数从基础模型的55.30%通过噪声训练提高到了81.63%，在完整的NRPI变体中进一步提高到了100.00%，相对于独立NR模型增加了22.50%。这一行为与早期观察结果一致，即基础XGBoost对过拟合非常敏感，因此从鲁棒性导向的训练和有针对性的事后校正中受益匪浅。总体而言，5中的结果表明，物理引导规则为F3预测提供了持续且类别特定的改进。这些发现确认了NRPI框架的性能提升不能仅归因于噪声训练，物理引导规则在改进F3分类中发挥了独特且可测量的作用。

表5
表5. 使用F3特定F1分数对独立离线数据集进行物理引导概率规则的消融研究。

模型 F1分数（F3）
Base-RF 90.23
NR-RF 93.75
NRPI-RF 100.00
Base-SVC 92.31
NR-SVC 82.76
NRPI-SVC 92.60
Base-XGBoost 55.30
NR-XGBoost 81.63
NRPI-XGBoost 100.00

物理引导规则对RF、SVC和XGBoost变体的影响
与仅NR-RF相比的改进百分比：6.67%
与仅NR-SVC相比的改进百分比：11.89%
与仅NR-XGBoost相比的改进百分比：22.50%

同样，表6通过比较基础模型、PI模型和完整NRPI模型在噪声水平从5%到25%的数据集上的宏观F1分数，隔离了课程噪声训练的效果。由于PI模型和NRPI模型共享相同的事后物理引导规则，它们之间的差异直接量化了噪声训练的贡献。对于RF，平均宏观F1分数仅从基础模型的88.70%略微增加到PI模型的88.82%，表明物理引导规则本身对噪声输入下的整体性能影响微不足道。然而，在NRPI模型中，性能显著提高到了99.11%，相对于PI模型提高了11.58%。这清楚地表明，噪声训练是提高RF鲁棒性的主导因素，而物理引导规则主要在噪声测试条件下提供类别特定的细化。对于SVC，观察到了类似但不那么明显的趋势。平均宏观F1分数在基础模型（95.10%）和PI模型（95.17%）之间几乎没有变化，表明物理引导规则的全局影响最小。NRPI模型实现了平均宏观F1分数为99.06%，相对于PI模型提高了4.09%。这表明SVC本身具有鲁棒性，噪声训练提供了适度的但一致的增强，而物理引导规则主要贡献于目标类别校正而非整体鲁棒性。对于XGBoost，两种策略的效果更为显著。平均宏观F1分数从基础模型的71.57%通过噪声训练提高到了83.19%，在完整的NRPI模型中进一步提高到了100.00%，相对于独立NR模型增加了22.50%。这表明物理引导规则相对于独立NR模型带来了显著的额外改进。这种行为与早期观察结果一致，即基础XGBoost对过拟合非常敏感，因此从鲁棒性导向的训练和有针对性的事后校正中受益匪浅。总体而言，表6中的结果确认了物理引导规则为F3预测提供了持续且类别特定的改进。这些发现证实了NRPI框架的性能提升不能仅归因于噪声训练，物理引导规则在改进F3分类中发挥了独特且可测量的作用。

表6. 在噪声测试条件下使用宏观F1分数对课程噪声训练的消融研究。

模型噪声水平平均宏观F1分数
Base-RF 89.78 89.14
NR-RF 89.80 89.20
NRPI-RF 100.00 99.95
Base-SVC 90.00 98.54
PI-RF 98.66 95.14
NRPI-SVC 99.10 98.61
Base-XGBoost 74.44 73.49

综合来看，消融研究清楚地说明了NRPI框架中观察到的性能提升的来源。课程噪声训练主要增强了模型对加性高斯噪声的全球鲁棒性，这一点从所有分类器在噪声条件下的宏观F1分数一致提升中得到了体现。相比之下，物理引导概率规则作为一种有针对性的事后校正机制，特别改善了F3故障类别的预测，这种类别由于与正常操作的相似性而难以区分。这两种策略的相对重要性取决于模型。对于RF，性能提升主要由噪声训练驱动，物理引导规则提供了额外的细化。对于SVC，基础模型本身已经具有鲁棒性，物理引导规则主要作为F3的校正机制，而噪声训练在整体鲁棒性上提供了适度的提升。对于XGBoost，两种策略都至关重要且互补，噪声训练显著提高了整体鲁棒性，物理引导规则在类别特定可靠性上提供了显著的额外提升。这些发现表明，NRPI框架的性能提升不能归因于单一组件。相反，这些提升源于鲁棒性导向训练（NR）和物理引导校正（PI）的结合效应，从而验证了所提出的混合框架的设计。

4.4. 可解释性分析
进行了可解释性分析，以揭示RF、SVC和XGBoost分类器的基础模型和NRPI变体的决策过程。图14展示了基于Gini纯度的RF基础模型和NRPI变体的特征重要性得分。显然，基础模型在决策过程中严重偏向于IP、PT1和RF1。这导致模型表现不佳，特别是在F1和F2故障分类上做出不准确的预测，这一点从前文4.2.2节的混淆矩阵中可以看出。然而，RF的NRPI变体的Gini纯度基础特征重要性得分分布更为均匀。

下载：下载高分辨率图像（247KB）
下载：下载全尺寸图像

图14. RF分类器的特征重要性（基于Gini纯度）：a.) 基础模型 b.) NRPI变体

由于SVC分类器本身不提供像RF或XGBoost那样的特征重要性得分，因此采用了模型不可知的基于排列的特征重要性方案。图15展示了SVC基础模型和NRPI变体的不同特征的基于排列的重要性。SVC基础模型和NRPI变体的不同特征的基于排列的重要性显示出惊人的相似性。这种模式源于SVC的决策边界，它依赖于一个平滑的RBF核，将数据投影到高维空间并拟合一个超平面来分隔类别，使得所有特征共同发挥作用。这一趋势可以从4.2.2节的混淆矩阵分析中进一步得到证实，该分析显示即使在基础形式下，SVC也表现良好。

下载：下载高分辨率图像（269KB）
下载：下载全尺寸图像

图15. SVC分类器的特征重要性（基于排列）：a.) 基础模型 b.) NRPI变体

为了解释RF和XGBoost基础模型和NRPI变体的决策策略，估计了模型特定的基于增益的特征重要性。图16展示了RF基础模型和NRPI变体的不同特征的标准化基于增益的重要性。这清楚地表明，XGBoost的基础模型严重偏向于PT2、T5和T7。令人惊讶的是，它对RF1、RF2、PT1和T4的重视程度很低。这导致XGBoost的基础模型过拟合。这也解释了XGBoost在离线和未见过的噪声测试中的表现不佳。然而，NRPI变体也重视其他特征，其中RF1、T7和RF2是最重要的。

下载：下载高分辨率图像（213KB）
下载：下载全尺寸图像

图16. XGBoost分类器的特征重要性（基于增益）：a.) 基础模型 b.) NRPI变体

需要注意的是，RF的NRPI变体的基于Gini纯度的特征重要性图、SVC的NRPI变体的基于排列的特征重要性图以及XGBoost的NRPI变体的基于增益的特征重要性图仅反映了课程噪声训练的效果。使用补充的影响规则分析估计了事后物理引导概率规则混合对F3预测概率的影响。图17突出显示了RF、SVC和XGBoost的NRPI变体的F3预测概率变化和规则分数的变化散点图。从图中可以看出两种不同的情况：对于低到中等规则分数（大约0.1–0.3），概率变化ΔP(F3)增加，表明当模型不确定时规则积极提升了F3的概率，而RF2和RF1之间的差异不显著；而对于较高的规则分数（大约0.5–0.7），当RF2和RF1之间的差异显著时，ΔP(F3)接近于零，这意味着模型已经对预测F3有信心，规则的影响很小。总体而言，RF、SVC和XGBoost的NRPI变体之间的模式几乎相同，因为规则分数仅从物理变量RF1和RF2计算得出，并且在所有情况下使用相同的Sigmoid参数和相同的混合权重。图中观察到的任何微小变化都源于基础模型概率的微小差异，而主导行为由共享的基于物理的规则控制。总体而言，影响规则在RF、SVC和XGBoost模型不确定的情况下将F3的预测概率提高了大约7%，规则提供了额外的支持证据。这种行为是在30%的保留测试集上评估的。需要注意的是，在嘈杂和离线条件下，RF、SVC和XGBoost的基本概率可能会有所不同，因此规则的影响程度也可能会有所变化。下载：下载高分辨率图片（276KB）下载：下载全尺寸图片。图17. 由于Sigmoid规则混合，RF、SVC和XGBoost的NRPI变体的F3预测概率发生变化。总体而言，可解释性分析为不同模型的决策策略提供了关键的见解。课程噪声训练功能增强了不同模型的鲁棒性，因为模型倾向于调整特征的重要性以提高泛化能力。此外，事后的概率Sigmoid规则有助于分类器在不确定和嘈杂的测试条件下提高F3故障模式的预测概率。XGBoost和RF从课程噪声训练和规则混合中受益最大，而SVC则从这两种协同增强中受益适中。

4.5. 局限性和未来工作
本研究开发了一个用于VRF系统组件级硬故障诊断的鲁棒且可解释的机器学习框架，该框架仅使用内置传感器遥测数据。该框架集成了课程噪声训练和事后物理指导规则，并通过离线测试、噪声数据分析、消融和可解释性评估对其性能进行了系统评估。尽管取得了这些进展，但仍存在一些局限性：
1. 首先，监督故障库仅限于三种组件级硬故障，因此开发的分类器仅在此封闭故障集内进行了验证。要扩展到其他故障类型（如四通阀故障、电子膨胀阀故障、制冷剂泄漏、压缩机相关故障或未知故障），需要开放集处理机制和/或额外的标记数据进行重新训练。
2. 其次，鲁棒性分析仅限于加性高斯传感器扰动，其他现实的传感器损坏模式（如时变漂移/偏差、脉冲式干扰和周期性干扰）没有明确建模。
3. 第三，尽管该框架旨在用于部署，但仅在单个VRF测试台上进行了验证，跨不同制造商、容量、制冷剂和配置的跨系统泛化尚未得到验证。因此，未来的工作将集中在四个方向上扩展该框架：
a. 扩展故障库，包括额外的组件级和多故障场景，以及针对未见故障的开放集识别策略。
b. 扩展鲁棒性分析，以纳入多种传感器损坏模型，从而更全面地评估现实世界的不确定性。
c. 在多个VRF平台上验证该框架，以评估其可转移性和部署所需的重新校准程度。
d. 探索在更大和更多样化的数据集下使用深度学习模型，以进一步评估准确性、鲁棒性和可解释性之间的权衡。

5. 结论
本研究开发了一个NRPI框架，用于仅使用内置传感器数据检测和诊断组件级故障。结果表明，在训练期间加入高斯噪声和模块化的事后物理指导校正显著提高了在加性传感器噪声下的诊断鲁棒性和离线泛化能力。本研究的主要发现如下：
1) 需要超出标准划分的严格评估：研究表明，依赖传统的训练-测试划分评估可能会导致过于乐观的结论，因为所有模型在30%的保留数据集上都取得了接近完美的性能。然而，在独立的离线测试中观察到性能下降，其中基础XGBoost的下降幅度最大（宏观F1下降了约34%），这突显了多阶段评估的必要性，以准确评估离线泛化和对传感器扰动的鲁棒性。
2) 噪声抵抗训练对鲁棒性的有效性：基于课程的高斯噪声增强显著提高了对加性高斯噪声的鲁棒性。NRPI变体在所有噪声水平上都一致优于基线模型，平均宏观F1提高了+11.98%（RF）、+4.38%（SVC）和高达+38.15%（XGBoost）。在嘈杂条件下，NRPI-RF和NRPI-SVC分别获得了99.10%和99.13%的高平均宏观F1分数，显示出强大的泛化和噪声抵抗能力。
3) 物理指导校正的补充作用：事后物理指导的概率规则为F3故障类别提供了有针对性的改进，在内部测试评估的不确定条件下将预测置信度提高了约7%。消融结果证实，噪声训练是全球鲁棒性的主要贡献因素，而物理指导规则为难以区分的故障条件提供了额外的类别特定细化。
4) 所提出框架的价值和局限性：所提出的NRPI框架提供了一个计算上轻量级、可解释且面向部署的解决方案，用于仅使用内置传感器遥测数据诊断未充分探索的组件级硬故障。然而，该框架仅在单个VRF测试台上进行了验证，并且仅限于高斯噪声扰动，因此跨系统验证和包括更复杂的传感器损坏模式是未来工作的重要方向。

CRediT作者贡献声明：
Muhammad Reshaeel：撰写 - 审查与编辑、撰写 - 原始草稿、软件、方法论、调查、形式分析、数据管理、概念化。
Vinod Khadkikar：撰写 - 审查与编辑、验证、监督、项目管理、方法论。
Mohamed I. Hassan Ali：撰写 - 审查与编辑、可视化、验证、监督、资源管理、项目管理、调查、资金获取、概念化。

热点排行