基于干扰观测器辅助自适应评判强化学习(Disturbance Observer-assisted Adaptive Critic Reinforcement Learning, DOB-ACRL)的机械臂鲁棒抗扰控制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Atmosphere》：CFD Assessment of Near-Surface Dust Release and Transport in Near-Field Flows Under Different Atmospheric Stability Conditions Peng Sun, Hongfei Li, Chen Chen, Liang Zhang and Haowen Yan

【字体：大中小】 时间：2026年03月20日 来源：Atmosphere 2.3

编辑推荐：

　　摘要：针对机器人机械臂在存在集总外部扰动与模型不确定性的工况下跟踪性能下降的问题，研究人员提出一种干扰观测器辅助自适应评判强化学习(Disturbance Observer-assisted Adaptive Critic Reinforcement Lear

摘要：针对机器人机械臂在存在集总外部扰动与模型不确定性的工况下跟踪性能下降的问题，研究人员提出一种干扰观测器辅助自适应评判强化学习(Disturbance Observer-assisted Adaptive Critic Reinforcement Learning, DOB-ACRL)的鲁棒控制方案。该方法将一阶低通滤波型干扰观测器(Disturbance Observer, DOB)与基于自适应评判(Acture-Critic)结构的强化学习(Reinforcement Learning, RL)控制器相融合：DOB依据名义模型与测得关节位姿速度在线估计集总扰动(d(t))并反馈补偿，减小进入误差动态的有效扰动；自适应评判网络(Actor)以归一化性能指标(RMS跟踪误差、控制能量、控制变化率)为导向，通过指数型软化权重更新律(wi(t)=exp(-βiφi(t))/Σjexp(-βjφj(t)))在线调节多重目标的加权系数，模拟"注意力重分配"，在跟踪精度达标后自动偏向能耗与平滑度优化。在假设扰动与参数摄动有界的前提下，闭环系统经Lyapunov分析验证最终一致有界(Ultimate Boundedness)。仿真结果表明，所提DOB-ACRL架构在保证轨迹跟踪精度的同时显著降低控制输入能量与抖振，较传统滑模及固定权重控制器具更优鲁棒性与自适应性。

论文解读：基于干扰观测器辅助自适应评判强化学习(DOB-ACRL)的机械臂鲁棒抗扰控制研究

研究背景与动机

机械臂在精密作业场景中面临外部时变扰动（摩擦、负载波动、环境接触力）与模型参数不确定性（惯性矩阵M(q)、科氏/向心力矩阵C(q,?)、摩擦力F(?)偏差），导致传统固定增益PID或计算力矩法跟踪性能恶化。现有鲁棒控制（如滑模控制SMC）虽可抗扰但存在抖振且未兼顾能耗优化；单强化学习(RL)控制器应对未知强扰动时收敛慢甚至失稳。因此需融合扰动估计与多目标自适应控制——引入干扰观测器(DOB)显式补偿集总扰动d(t)=M(q)?q+C(q,?)?+F(?)-τ，并利用自适应评判RL在线权衡跟踪精度、控制能量与控制平滑度，实现"先保性能、后省能耗"的类人学习机制。本文发表于《Actuators》（MDPI，2026，15(1):167）。

关键技术方法

研究人员采用：(1) 标准n连杆刚体机械臂Euler-Lagrange动力学模型，假设集总扰动∥d(t)∥≤d_max且有界，参数失配归入d(t)；(2) 一阶低通DOB：??(t)=-?_d??(t)+?_d[M(q)?q+C(q,?)?+F(?)-τ]，?_d>0为观测器带宽，输出扰动估计??(t)，估计误差??(t)=d(t)-??(t)；(3) 名义非线性/PD反馈τ_n(t)保障无扰时基本跟踪；(4) Actor-Critic自适应评判结构：Critic评价含RMS跟踪误差φ₁、控制能量φ₂、控制变化率φ₃的归一化性能指标，Actor输出增量补偿τ_a(t)，综合控制τ=τ_n+??(t)+τ_a(t)；权重w_i(t)按指数softmax型在线更新（β_i为自适应增益），随φ_i减小自动增大对应权重，实现多目标折衷；(5) Lyapunov稳定性证明闭环误差动态最终一致有界，DOB估计误差视为有界扰动处理。

研究结果

Disturbance Observer and Estimation Error（干扰观测器与估计误差）

研究人员定义集总扰动d(t)=M(q)?q+C(q,?)?+F(?)-τ并设计一阶DOB生成估计??(t)，定义估计误差??(t)=d(t)-??(t)。在?_d足够大且d(t)缓变假设下??(t)有界且幅值远小于d(t)，该误差作为有界摄动进入后续Lyapunov分析。

Adaptive Multi-Objective Weight Update（自适应多目标权重更新律）

研究人员设定三个归一化性能指标φ₁(t)—RMS跟踪误差、φ₂(t)—控制能量、φ₃(t)—控制变化平滑度，权重按w_i(t)=exp(-β_iφ_i(t))/Σ_j=1³exp(-β_jφ_j(t))在线更新。仿真显示当跟踪误差下降后w₁减小、w₂,w₃增大，控制器自发转向节能与平滑优化，类比人类技能习得中注意力资源重分配。

Closed-Loop Stability Analysis（闭环稳定性分析）

研究人员构造Lyapunov函数V=e^TPe+???^T??（e为跟踪误差向量），代入含DOB补偿的闭环误差动态，证得??≤-αV+γ（α,γ>0），表明跟踪误差与估计误差最终一致有界(Ultimately Uniformly Bounded)，有界半径与?_d^-1及??上界成正比，说明增大观测器带宽可提高抗扰精度。

Simulation and Comparative Study（仿真对比研究）

研究人员在2-DOF机械臂模型上施加正弦+阶跃集总扰动，对比：① 传统计算力矩法(CTM)；② 滑模控制(SMC, boundary layer)；③ 固定权重ACRL；④ 所提DOB-ACRL。结果显示DOB-ACRL位置RMS误差较ACRL降约32%，控制输入2-范数比SMC降约25%，力矩曲线平滑无抖振，权重演化符合预期的自适应切换特性。

讨论与结论

研究人员得出结论：将低通一阶干扰观测器(DOB)嵌入自适应评判强化学习(ACRL)控制回路，可显式抵消大部分集总扰动影响，降低RL控制器面对强不确定性的学习负担；指数软化权重更新律使多目标（跟踪精度|控制能耗|控制平滑度）可在线自主折衷，避免人工调参且模拟生物学习的阶段性侧重。该方法在模型失配与外部扰动并存时保持闭环稳定与良好跟踪，兼具鲁棒性与自适应性，为复杂环境下智能机械臂控制提供可行框架。未来工作可考虑高阶DOB设计及Actor网络收敛性严格证明。

联系信箱：

粤ICP备09063491号

热点排行