基于近端策略优化（Proximal Policy Optimization, PPO）的轴承剩余使用寿命估计：在XJTU-SY全寿命数据集上的验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Machines》：Bearing Remaining Useful Life Estimation Using Proximal Policy Optimization (PPO): Validation on the XJTU-SY Run-to-Failure Dataset

【字体：大中小】 时间：2026年06月10日 来源：Machines 2.5

编辑推荐：

　　本研究开展了一项概念验证性研究，探讨采用近端策略优化（PPO）这一深度强化学习（Deep Reinforcement Learning, DRL）算法用于滚动轴承剩余使用寿命（Remaining Useful Life, RUL）估计的可行性。尽管DRL在预测

本研究开展了一项概念验证性研究，探讨采用近端策略优化（PPO）这一深度强化学习（Deep Reinforcement Learning, DRL）算法用于滚动轴承剩余使用寿命（Remaining Useful Life, RUL）估计的可行性。尽管DRL在预测性维护领域展现出日益增长的潜力，但现有应用主要依赖于离策略确定性演员-评论家（Actor-Critic）方法，如深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）和双延迟DDPG（Twin Delayed DDPG, TD3）；而作为一类基于策略裁剪目标的在线策略方法，PPO在此任务中的适用性尚未得到充分探索。为填补这一研究空白，研究人员从原始振动信号中提取统计时域特征作为输入，训练采用演员-评论家架构的PPO智能体，其中演员网络负责预测RUL值，评论家网络通过状态价值估计评估预测质量。研究构建了包含特征提取、归一化和滑动窗口分割的预处理流程，并在PPO框架中融入广义优势估计（Generalized Advantage Estimation, GAE）、自定义奖励函数及策略裁剪机制以保障训练稳定性。该方法在XJTU-SY全寿命数据集中的代表性轴承（Bearing 2₁）上进行评估，采用按时间顺序的训练/测试划分，并与长短期记忆网络（Long Short-Term Memory, LSTM）、多层感知器（Multilayer Perceptron, MLP）以及朴素线性回归基线进行对比。性能评估采用均方根误差（Root Mean Square Error, RMSE）、平均绝对误差（Mean Absolute Error, MAE）、均方误差（Mean Squared Error, MSE）以及针对预测误差非对称加权的领域特定评分函数。实验结果表明，在先前未见过的退化后期阶段，特别是在关键的寿命终止区域，基于PPO的模型相较于监督学习基线能够产生更为稳定且更利于实际运行的RUL估计结果。研究结论支持将PPO作为轴承RUL预测中一种可行的在线策略DRL方法，并激励在多种轴承及运行条件下开展进一步验证，这也是未来工作的重点方向。

本项研究聚焦于滚动轴承剩余使用寿命估计这一预测与健康管理（Prognostics and Health Management, PHM）核心任务，旨在探索区别于传统监督回归范式的深度强化学习新路径。当前数据驱动的RUL估计方法主要以物理模型、数据驱动方法及混合方法为三大类别，其中数据驱动方法因传感监测数据增长及高精度物理模型构建困难而占据主导。传统机器学习方法如支持向量机、随机森林、K近邻和人工神经网络等高度依赖手工特征提取与领域专家知识，在变化工况下的泛化能力受限。深度学习方法如卷积神经网络、长短期记忆网络等虽能自动提取层次化表征并捕获时序依赖，但仍需预定义退化标签或准确故障时间戳，且离线训练模式难以适应动态演化的系统特性和域迁移问题。

近年来，强化学习框架开始被引入预测性维护领域，将RUL估计重新建模为马尔可夫决策过程（Markov Decision Process, MDP），通过智能体与环境的交互学习最优策略。然而，现有DRL应用多集中于DDPG和TD3等离策略确定性演员-评论家方法，PPO这类在线策略裁剪目标方法的适用性探索不足。为此，研究人员提出以PPO为核心策略学习算法的系统框架，利用其裁剪替代目标约束破坏性策略更新、增强训练稳定性的优势，针对有限且含噪声的退化轨迹数据开展概念验证。该研究发表于《Machines》期刊，为旋转机械预测性维护提供了一种新的技术路径。

研究采用的主要关键技术方法包括：基于统计时域特征（最大值、均方根、平方根均值、标准差和峭度）的状态表征构建，其中峭度用于基于3σ准则的首个预测时间点（First Prediction Time, FPT）检测；主成分分析（Principal Component Analysis, PCA）用于消除特征间线性相关性，构建去相关化的五维状态空间；滑动窗口时序分割（窗口大小10、步长1、预测视野0）生成序列样本；PPO演员-评论家架构采用多层感知器网络，演员网络输出高斯策略的均值与标准差参数，评论家网络估计状态价值函数；结合GAE（λ=0.95）与策略裁剪机制（ε=0.2）实现稳定训练，折扣因子γ=0.99，批次规模32，经验缓冲区2000，每轮策略更新10个epoch，熵正则化系数0.01；对比基线包括采用相同PCA输入的LSTM网络（两层隐藏单元分别为64和32，带批归一化和0.2 dropout）和MLP网络（两层分别为64和32隐藏单元），以及朴素线性回归基线；评估指标涵盖RMSE、MAE、MSE和对晚期预测更重惩罚的评分函数。

研究结果部分从特征探索、模型架构、训练过程和预测对比四个方面展开分析。

在特征集探索方面，通过分析Bearing 2₁的x方向振动信号时域特征，研究人员发现最大值、均方根、平方根均值和标准差在寿命前期保持平稳，约455分钟处呈指数型陡增，与轴承内圈故障导致的退化进程一致；峭度在健康阶段保持恒定，故障前显著跃升，被选定用于FPT检测。特征相关性分析显示四个幅值相关特征间存在近完美相关（约0.97-1.00），均值与其余特征几乎无关；经PCA变换后，五维主成分完全去相关，构成无信息损失的正交状态表征。

在模型架构方面，PPO演员网络和评论家网络均采用输入维度5、单隐藏层32神经元、ReLU激活的MLP结构。演员输出经Sigmoid约束的均值和经Softplus保证非负的标准差，构建高斯随机策略；评论家输出无激活的标量价值估计。LSTM采用双隐层结构（64和32单元），配合批归一化、0.2 dropout和全局平均池化。MLP采用双隐层结构（64和32单元），含dropout和批归一化。

在PPO训练方面，奖励曲线显示初期大幅负奖励对应随机初始化下的高方差探索，中期随裁剪机制和GAE作用逐渐上升趋零，后期8000轮训练末段稳定在零概率近零的窄带，表明策略收敛。演员损失从高振荡逐渐降低稳定，评论家损失同步下降收敛，确认演员-评论家协同有效。

在RUL预测对比方面，PPO在训练和测试阶段均能准确追踪退化趋势，早期存在波动，后期尤其在临界退化区与真实RUL高度吻合。LSTM虽捕获全局趋势，但在FPT变化点出现显著下偏差测试段末期乐观高估RUL。MLP训练段近似尚可，测试段出现延迟平台后骤降至非负RUL的不稳定外推。朴素线性回归虽无法利用振动特征，但其评分（0.1172）优于LSTM（0.1985）和MLP（0.5850），凸显监督基线的失效模式。量化指标显示PPO测试集MAE为0.0526、RMSE为0.0694、评分0.0512，全面优于所有对比方法，尤其非对称评分优势表明其在高风险晚期区域更少产生代价高昂的预测失误。

讨论部分进一步分析指出，训练/测试按时间顺序划分虽属同轨迹内插值，但三种模型在相同测试段上的显著行为分化——MLP崩溃至负RUL、LSTM末期高估、PPO紧密追踪——证明测试任务非平凡，且PPO捕捉了监督基线未能学习的退化相关结构。PPO的结构特性使其区别于确定性MSE最小化：随机策略参数化、裁剪替代目标的信任域约束、以及GAE平滑的时间信用分配，三者共同解释了其更优的泛化表现。

研究结论表明，本项概念验证研究成功展示了PPO在轴承RUL预测中的有效性。总体而言，相较于LSTM和MLP等监督基线，PPO提供了最为一致的结果，尤其在轴承寿命末期等准确预测至关重要的区域。MAE、RMSE、MSE和评分等指标连同预测曲线共同表明，PPO能够产生稳定且合理的RUL估计。相比之下，LSTM倾向于在寿命末期高估RUL，而MLP在测试阶段表现出较不稳定的行为。评分指标在此处尤为实用，因其对实践中风险更高的预测误差类型赋予更大权重。从方法论角度，本研究也将面向RUL的DRL应用从更为常见的DDPG类形式扩展至验证PPO作为可行替代方案：PPO作为在线策略演员-评论家方法，通过裁剪替代目标约束策略更新并允许多轮小批量优化以提升稳定性；而DDPG作为离策略确定性演员-评论家方法，通过评论家估计的Q函数学习连续动作策略，通常依赖经验回放和目标网络实现稳定化。

联系信箱：

粤ICP备09063491号

热点排行