《Engineering Applications of Artificial Intelligence》:Provably-safe neural controllers for safety-critical systems
编辑推荐:
摘要:针对显式参考调节器(ERG)在处理非凸约束或复杂李雅普诺夫函数时,在线求解最优阈值优化问题计算负担过重的问题,本研究提出了一种神经阈值(Neural Thresholding)方法。该方法采用前馈神经网络离线逼近最优阈值映射关系,并通过蒙特卡洛(Mont
摘要:针对显式参考调节器(ERG)在处理非凸约束或复杂李雅普诺夫函数时,在线求解最优阈值优化问题计算负担过重的问题,本研究提出了一种神经阈值(Neural Thresholding)方法。该方法采用前馈神经网络离线逼近最优阈值映射关系,并通过蒙特卡洛(Monte Carlo)模拟估计网络输出的近似误差,从而在运行时用保守边界保证安全性。研究人员将所提方法应用于Parrot Bebop 2无人机的安全导航与ViperX-300 6自由度机械臂的安全运动控制中。实验结果表明,该方法在保证系统轨迹始终处于安全集内的同时,成功实现了计算负担的大幅降低。
研究背景与意义
随着自动化系统在工业与生活中的普及,如何在复杂约束环境下确保控制系统既安全又能实时响应成为了核心挑战。显式参考调节器(Explicit Reference Governor, ERG)作为一种经典的实时安全控制机制,通过动态调整参考指令来确保系统状态不违反安全约束。然而,当面临非凸约束或复杂的非线性动力学时,ERG需要在每个控制周期在线求解一个涉及李雅普诺夫函数(Lyapunov function)的优化问题。这一过程计算量极大,严重限制了其在计算资源受限的嵌入式平台上的应用。
为了解决这一瓶颈,来自《Engineering Applications of Artificial Intelligence》的研究人员提出了一种“神经阈值(Neural Thresholding)”架构。其核心思想是将耗时的在线优化过程转移到离线阶段,利用神经网络强大的函数逼近能力,预先学习从参考指令到最优阈值的映射关系,从而实现毫秒级的实时安全控制。
关键技术与方法
研究人员在开展本研究时,主要采用了以下关键技术路径:
首先,在离线训练阶段,研究人员通过对可行参考集进行网格化采样,针对每一个采样点求解复杂的非凸优化问题以获取真实的最优阈值,从而构建大规模的训练数据集。其次,选用前馈神经网络(Feedforward NN)作为回归模型,通过增长法(Growing Method)确定网络深度与宽度,并利用丢弃法(Dropout)防止过拟合,以此建立输入参考量与输出阈值之间的高精度映射。最后,在理论保障方面,研究人员引入蒙特卡洛(Monte Carlo)模拟技术,对随机选取的大量数据点进行压力测试,以统计估计网络输出的最大近似误差,进而在在线运行时从神经网络预测值中减去该误差边界,形成保守且安全的阈值下限。
研究结果
2.1 预备知识与问题定义
研究人员定义了系统的安全约束集与李雅普诺夫函数,明确了ERG的核心任务是寻找最大的缩放因子(即阈值),使得当前的李雅普诺夫水平集能够完全包含于安全约束集内。这被公式化为一个带约束的最小化优化问题。
2.2 动态系统管理
为了处理非凸环境下的可行性问题,研究引入了动态系统管理(DSM)机制。通过设计导航函数(Navigation Function),系统能够在目标点不可行时,自动引导状态向量收敛到距离目标最近的可行边界点上。
2.3 关键挑战与目标
针对传统ERG在非凸场景下无法求得闭式解(Closed-form solution)的缺陷,研究人员确立了用神经网络替代在线优化的核心目标,旨在将繁重的计算负担转移至离线阶段。
3.1 数据采集与神经网络训练
研究人员详细阐述了如何生成训练数据集,即通过网格划分可行域并计算对应的全局最优阈值。随后,利用均方误差(Mean Squared Error, MSE)作为损失函数,采用Levenberg-Marquardt反向传播算法训练前馈神经网络,使其学会逼近 v?Γ(v)的复杂映射关系。
3.2 神经网络输出近似误差的缓解
考虑到神经网络输出必然存在偏差,研究人员提出了一种保守收紧策略。通过蒙特卡洛模拟获取最大估计误差 ?,并在线计算保守阈值 max{ΓNN(v)??,0}。这种架构分离设计确保了即便存在近似误差,系统的安全性依然能得到严格证明。
- 4.
无人机安全导航实验
在Parrot Bebop 2四旋翼无人机的物理实验中,研究人员设定了包含非凸墙壁约束、障碍物约束和控制输入饱合约束的复杂环境。实验结果显示,经过离线训练的神经网络能够以极低的误差逼近最优阈值,且通过减去安全余量,无人机成功实现了从起点到终点的安全避障飞行,全程未离开安全集。
- 5.
机器人操纵器安全运动控制
针对ViperX-300 6自由度机械臂,研究人员处理了更为复杂的关节空间与笛卡尔空间约束转换问题。通过逆运动学将工作空间的墙壁约束映射到关节角度,并同样利用神经网络处理非凸优化问题。实验结果证明,即便目标点位超出安全边界,该神经ERG系统也能精准地将机械臂引导至最近的边界点,实现了高维系统的安全控制。
讨论与结论
在讨论部分,研究人员指出,虽然蒙特卡洛方法提供的是统计意义上的误差估计而非绝对的理论上界,但在实际应用中,这种带有保守边界的策略已经足以应对绝大多数安全关键场景。此外,研究人员也坦诚,目前的框架假设系统无扰动,未来计划引入输入到状态稳定性(Input-to-State Stability, ISS)李雅普诺夫函数来增强鲁棒性。
综上所述,这项研究的结论表明,将神经网络与传统ERG框架深度融合,能够彻底打破实时安全控制在计算复杂度上的壁垒。它不仅保留了ERG原有的严格安全证明,还通过离线学习与在线保守估计的结合,为高维、非凸、计算资源受限的复杂系统提供了一种全新的安全控制范式。