基于自适应界限的约束残差强化学习，用于在不确定条件下优化机电系统的控制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Constrained residual reinforcement learning with adaptive bounds to optimize control of a mechatronic system under uncertain conditions

【字体：大中小】 时间：2026年06月19日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　汤姆·斯塔森斯|汤姆·勒费弗尔|吉约姆·克雷夫科尔比利时根特市Technologiepark 131，邮编9000 机电系统与金属工程系摘要本文提出了一种方法，用于在不确定条件下优化传统控制器的性能，同时始终确保安全性。该方法借鉴了受限残差强化学习的思想，

　　汤姆·斯塔森斯|汤姆·勒费弗尔|吉约姆·克雷夫科尔
比利时根特市Technologiepark 131，邮编9000
机电系统与金属工程系

摘要
本文提出了一种方法，用于在不确定条件下优化传统控制器的性能，同时始终确保安全性。该方法借鉴了受限残差强化学习的思想，即通过受限强化学习智能体学习对基础控制器输出的修正，从而提升优化效果。本文深入分析了该框架的理论基础，并解决了其主要缺陷——即要求状态空间中安全性最高的区域为残差智能体设定全局约束。通过引入状态依赖型约束并采用双循环架构，这一限制得以放宽。在外循环中，通过概率模型为性能提供带有更新后约束的置信区间，从而逐步调整残差控制器的约束范围。这样一来，自适应残差强化学习智能体首先进行小规模的自适应探索，仅在安全允许的状态空间区域内逐步扩大优化范围，进而实现整体性能的最优化。所提出的方法已通过实验验证，同时研究了内外循环之间的相互作用。实验结果表明，该方法为在不确定条件下优化传统控制器性能提供了一种实用且直观的方法，其在性能提升以及整个学习过程中的安全性方面均优于传统的受限残差强化学习方法。

引言
机械电子系统需要具备更高的自主性和效率，同时在不确定工作条件下始终保持安全运行的严格要求依然至关重要。为应对这些挑战，必须具备有效的运动控制能力。传统的控制策略，如PID（比例-积分-微分）控制器（O’dwyer，2009），已被证明具有很强的鲁棒性，能够确保系统安全运行，因此被广泛应用于工业领域。然而，这类策略更注重在不同工作条件下的鲁棒性而非最优性，因而缺乏在新条件下优化性能的能力。为解决这一问题，人们提出了多种自适应控制策略：例如在运行过程中调整PID参数（Kuc和Han，2000），或在模型预测控制中调整模型参数（Adetola和Guay，2011）。尽管这些策略能够提升闭环系统的跟踪性能，但它们要么局限于次优的策略空间，要么难以实时评估。

另一种方法是将随机不确定性引入确定性最优控制框架中，形成随机最优控制框架（Athans，1971；Mesbah，2016；Li等人，2022）。虽然这些策略能够应对不确定性，但它们只是强化了相互间的控制动作，却无法通过智能地学习受控系统对输入的响应行为来降低不确定性。自适应随机最优控制方法（Heirung等人，2017）则能够识别可降低的不确定性，并试图减轻不可降低的不确定性。不过，这类方法的设计需要大量工作，而且对系统动态也存在诸多假设限制（Hewing等人，2020）。

另一方面，强化学习方法则是通过观察系统在特定任务下的实际行为，直接优化反馈策略（Sutton和Barto，2018）。通过在系统运行过程中与其交互，强化学习智能体可以探索最优策略空间，从而找到（局部）最优策略。因此，强化学习算法为自适应性提供了一种有趣的处理方式，且无需对系统及其环境做任何先验假设。近年来，强化学习已应用于各种工程问题，包括过程控制（Nian等人，2020）、建筑能效控制（Fu等人，2022）、机器人技术（Singh等人，2022；Han等人，2023）、空中及城市交通控制（Papadopoulos等人，2024；Zhao等人，2024；Li等人，2024）、约束优化（Hu等人，2023）、自动交易（de Azevedo Takara等人，2024）等诸多领域。关于该领域的更全面概述，可参考Naeem等人（2020）的综述文章。

强化学习的主要缺点在于，它通过试错方式获得新见解，而这可能会给那些对安全性要求极高的机械电子系统带来危险。尤其是在初始训练阶段或系统投入运行后遇到未知工况时，这种风险更为突出。由于缺乏安全保障，强化学习在工业环境等场景中的应用可能面临很大阻碍。因此，安全强化学习已成为当前强化学习研究领域的重大挑战之一（Dulac-Arnold等人，2021），近年来也催生了一个新的研究方向。

为解决这一问题，人们提出了多种策略：例如通过安全屏障（Alshiekh等人，2018；Yang等人，2023）或基于在线学习得到的动态模型的控制边界函数（Cheng等人，2019；Wang等人，2023）来调整强化学习智能体的行为，以确保其安全运行；或者通过纳入安全预测或添加约束来改变优化目标（Berkenkamp等人，2017；Wachi等人，2018；Achiam等人，2017；Huang等人，2022）；又或者通过考虑估计的安全性来引导探索过程（Xuan等人，2022），或在未知状态下采用备用策略（García和Shafie，2020；Ceusters等人，2023）；还有在训练过程中引入破坏性对手以提高系统鲁棒性的方法（Pinto等人，2017；Meng等人，2023）。关于该领域的完整概述，可参考Gu等人（2022）和Zhao等人（2023）的最新综述文章。

在通过约束学习策略来实现安全强化学习的领域中，受限残差强化学习（CRRL）（Staessens等人，2022）从控制工程和工业应用的角度出发，提供了一种有趣的方法。其核心思想是利用强化学习方法优化已稳定系统的性能。一种方法是将传递给闭环系统的参考轨迹进行转换（Duan等人，2021；Green等人，2021；Li等人，2021）。这种方法不会对闭环系统本身造成侵入式修改。另一种方法是采用残差拓扑结构。在实际工业应用中，通常会使用一个鲁棒的基控制器来引导和约束强化学习策略，该策略作为附加项叠加在传统控制器的输出之上。这样，传统控制器承担了大部分控制功能，始终确保系统的鲁棒性，而强化学习智能体则负责学习剩余的输出，以优化当前工作条件下的系统性能。Staessens等人（2022）通过实验和理论分析证明了该方法的有效性。不过，它的最大缺陷在于需要严格的约束才能始终保证系统安全运行。在本研究中，我们借鉴了残差拓扑结构的理念，并对其进行了彻底改进，以解决这一缺陷。首先，我们利用受限残差方法所建立的框架，通过传统控制器的基本性能明确界定安全概念，同时还能融入任何通用的独立安全指标。在此基础上，我们引入了状态依赖型且具有自适应性的约束，从而形成一个在安全约束下同时优化性能和约束的受限优化问题。为了解决这一问题，我们提出了对优化结构的改进方案，并引入了相互配合的内外两层优化循环。我们的方法与标准的CRRL以及传统的PI（比例-积分）控制器进行了对比实验，结果表明，它能够根据对应状态空间的安全程度动态调整残差约束，不仅在收敛后的性能提升方面优于标准CRRL，而且在初始探索阶段的性能下降幅度也更小。

本文的结构如下：第2节介绍该方法论及相关背景知识；第3节阐述实验设置、实验内容及结果分析；最后，第4节对研究进行总结，并展望未来的研究方向。

片段摘录
**初步知识：强化学习**
强化学习旨在解决马尔可夫决策过程（MDP）问题。MDP是一个元组M=(S,A,r,p)，其中s∈S表示状态，a∈A表示动作，r(s,a)是表示在状态s下采取动作a的奖励函数，p(st+1|st,at)则表示在下一个时间步转移到状态st+1的概率。回报或目标函数定义为奖励的无限折现和R(τ)=limT→∞∑t=0Tγtr(st,at)，其中τ=(s0,a0,s1,a1,…)是状态和动作的序列，0?γ?1为折扣因子。

**实验设置**
在本研究中，我们在一个物理式的滑块曲柄系统中对自适应CRRL方法进行了测试。

**结论**
本文在之前关于在传统控制器之上添加受限强化学习智能体的研究基础上，提出了自适应CRRL这一新方法。该方法能够独立优化状态依赖型约束，因此在性能优化以及整个训练过程中的安全性方面，都显著优于传统方法。通过引入状态依赖型约束，可以放宽对状态空间中最安全区域的严格要求。

**CRediT作者贡献说明**
汤姆·斯塔森斯：软件开发、研究工作、可视化处理、方法设计、形式化分析、概念构思、论文审阅与编辑、结果验证、初稿撰写、数据整理。
汤姆·勒费弗尔：研究指导、初稿撰写、概念构思、论文审阅与编辑、形式化分析、方法设计。
吉约姆·克雷夫科尔：项目资金筹集、初稿撰写、研究指导、论文审阅与编辑、资源协调、项目管理。

**利益冲突声明**
作者声明不存在任何可能影响本文研究成果的已知财务利益或个人关系。

**致谢**
本研究得到了比利时弗兰德斯研究基金会（FWO）的SBO项目资助（编号S007723N），以及比利时弗兰德斯政府“弗兰德斯人工智能研究计划”の支持。

联系信箱：

粤ICP备09063491号

热点排行