基于在线学习的随机模型预测控制，结合概率安全保障机制，用于机器人视觉伺服系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Online learning-based stochastic model predictive control with probabilistic safety guarantees for robotic visual servoing

【字体：大中小】 时间：2026年04月29日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　刘林音|张庆辉|吕鹏涛|潘凯|袁成河南工业大学信息科学与工程学院，郑州，450001，中国 **摘要** 在未知的随机干扰下确保关键物理约束的高概率满足仍然是机器人视觉伺服中的一个基本挑战。本文提出了在线学习随机视觉伺服（OL-SVS）框架，该框架代表了人工智能（

　　刘林音|张庆辉|吕鹏涛|潘凯|袁成
河南工业大学信息科学与工程学院，郑州，450001，中国

**摘要**
在未知的随机干扰下确保关键物理约束的高概率满足仍然是机器人视觉伺服中的一个基本挑战。本文提出了在线学习随机视觉伺服（OL-SVS）框架，该框架代表了人工智能（AI）在机器人控制中的一个新颖应用，它将随机模型预测控制（SMPC）与非参数概率学习机制相结合。该框架将视野（FoV）约束的收紧问题重新表述为一个低维的稀疏变分高斯过程（SVGP）二进制推理问题。通过使用收紧参数作为唯一的输入特征，该方法有效地避免了先验噪声分布的需求，并规避了高维图像空间学习中固有的维数灾难。控制器模拟了约束满足概率与收紧参数之间的非线性映射，通过探索-利用机制自主确定最不保守的策略。通过几何遍历性建立了渐进安全性保证，并在不同的噪声统计特性下进行了验证。仿真结果表明，与领先框架相比，瞬态控制成本降低了25%，收敛效率提高了28.7%，同时严格将经验违规率保持在规定的风险阈值δ=0.05以内。在AUBO-i5机器人平台上进行的物理部署，利用仿真到实地的转移策略，在未建模的硬件动态和环境干扰下确认了4.7秒内的快速收敛。这些结果证明了理论安全性分析与实际实时可行性在非结构化环境中的稳健一致性。

**引言**
视觉伺服（VS）通过将视觉感知与机器人控制无缝集成，构成了在非结构化环境中自主操作的基本能力，仍然是现代机器人学的一个前沿研究方向（Chaumette和Hutchinson，2006，2007）。它在智能制造（Cheng等人，2024）、医疗手术（Chen等人，2025；Zakeri等人，2025）和自动驾驶（Li等人，2021）等领域的广泛应用，对精度、鲁棒性和安全性提出了越来越严格的要求。在各种方法中，基于图像的视觉伺服（IBVS）由于其对抗建模误差的固有鲁棒性而受到了广泛关注（Lin等人，2022；Rotithor等人，2022）。然而，实际应用IBVS受到在统一框架内严格处理物理约束（如相机视野（FOV）限制和关节饱和度）这一关键挑战的阻碍（Cheng等人，2024；Wang等人，2021；Xu等人，2025；Song等人，2023）。

模型预测控制（MPC）为在线优化和显式约束处理提供了一个强大的理论框架，有效解决了这些挑战（Wei和Shi，2022；Garcia等人，1989；Mayne等人，2000）。因此，将MPC集成到VS中以在复杂约束下优化动态性能已成为一个突出的研究焦点（Ke等人，2016；Hajiloo等人，2015；Wu等人，2022；Jiang等人，2025）。然而，传统的确定性MPC基于一个精确的、无干扰的系统模型假设。这一前提与现实世界的物理系统形成鲜明对比，在现实世界中，测量噪声、模型不确定性和外部干扰是不可避免的（Mesbah，2016；Mayne，2016）。

为了在操作不确定性下提供可靠的安全保证，随后引入了随机MPC（SMPC）（Oldewurtel等人，2013；Primbs等人，2000；Engelaar等人，2023；K?hler和Zeilinger，2025）。通过纳入机会约束，SMPC允许在预先指定的低概率阈值内违反约束，从而在高概率安全性和最优控制性能之间取得平衡。尽管这一范式已被广泛应用（Mesbah，2016；Mayne，2016），但在部署机会约束SMPC时存在一个根本性障碍，即将概率约束重新表述为一个计算上可行的确定性优化问题，通常是一个二次规划（QP）。

主流方法包括基于场景的优化和解析重构，如概率可达集（K?hler和Zeilinger，2025）和约束收紧（Farina等人，2015），已经解决了可处理性问题。然而，它们引入了一个次要的、难以处理的挑战，即保守性。为了获得理论上的闭环安全保证，这些方法几乎总是需要关于随机干扰的先验假设，例如高斯分布（Bradford等人，2020）或有界支持，或者依赖于普遍但过于保守的概率不等式（Lorenzen等人，2016）。当真实噪声轮廓偏离这些假设或随环境变化时，控制器被迫采用固定且过于保守的策略。这种性能-安全权衡破坏了机会约束的基本目标，特别是在需要高效率和灵活性的VS任务中（Gu等人，2025）。

Capone等人（2024）最近在解决这种固有保守性方面取得了里程碑式的进展，他们引入了一个基于递归回归的在线约束收紧框架。通过将收紧参数识别为可学习变量，（Capone等人，2024）中的方法表明，只要系统动态是线性的且干扰是加性的，控制器就可以通过实时交互自主减少保守性。然而，将这种自适应范式过渡到机器人视觉伺服领域遇到了重大的结构障碍。图像空间几何的固有非线性和感知噪声的状态依赖性使得传统回归方案中的解析噪声积分变得难以处理。受到（Capone等人，2024）中的自适应哲学的启发，本文提出了OL-SVS框架来弥合这一差距。这种方法代表了人工智能（AI）在机器人控制领域的专门应用，确保在未知的非平稳干扰下的长期概率一致性。通过从传统的解析建模转向AI驱动的推理范式，所提出的框架有效地管理了视觉伺服中固有的复杂非线性。

本文的主要贡献总结如下：
• 一种基于递归推理的SMPC架构。为IBVS任务开发了一种在线学习随机视觉伺服（OL-SVS）架构。该框架将SVGP推理引擎与随机控制律相结合，通过递归参数更新来执行FOV约束，而不是依赖于限制性的先验统计假设。
• 一种基于Probit的自适应收紧机制。本研究引入了一种专门的适应律，将最优安全裕度的识别重新表述为概率二进制分类任务，这是现代人工智能的核心技术。通过使用Probit链接函数，该方法绕过了非线性视觉动态中固有的解析不可处理性问题。这构成了基于回归范式到安全关键机器人视觉领域的理论基础扩展。
• 严格的理论和实验验证。所提出的框架建立了一个概率一致性定理，并证明了几何遍历性。这些理论结果通过将学习过程基于随机稳定性，确保了在未知干扰下的渐进安全性。在AUBO-i5机器人平台上实现了统一的仿真到实地（Sim-to-Real）流程，以确认该架构的实际可靠性。

**相关工作**
为了解决机器人视觉伺服中的随机挑战，当前研究集中在涉及随机优化和安全关键约束的各种策略上。根据文献中的方法学分层（Farina等人，2016），现有框架可以分为四个主要流派，包括约束收紧（CT）、概率可达集（PRS）方法、基于场景的方法和基于学习的SMPC。

**早期方法**
离散时间随机预测模型
所提出的OL-SVS框架采用了一种分层双环架构，将高级视觉感知与低级运动执行解耦。感知层利用基于SuperPoint和LightGlue的特征匹配来提取和跟踪图像特征。设s∈Rn表示当前图像特征向量，s?∈Rn表示期望的特征配置。控制层将实时随机模型预测控制（SMPC）求解器与...

**安全性措施和遍历性的理论框架**
对于任何固定的约束收紧参数向量γ∈Ωγ，由SMPC控制律vcMPC(x,γ)和机器人动态驱动的闭环系统建立了时间齐次的马尔可夫链{x(k)}k∈N。在允许的增强状态空间X?Rnx上定义的闭环随机动态表示为：
x(k+1)=fγMPC(x(k),ω(k))
其中fγMPC(·)表示闭环状态转移函数，ω(k)表示累积的随机干扰。

**在非结构化环境中的验证**
进行数值模拟以验证所提出的OL-SVS算法的理论可行性、概率收敛性和安全性保证。仿真环境在Ubuntu 22.04上集成ROS2和Gazebo，以准确建模操作器动态和相机成像。视觉伺服控制循环使用LightGlue进行鲁棒的特征匹配，系统参数详见表2。验证场景执行使用...

**机器人平台和手眼系统设置**
所提出的OL-SVS框架的物理实现评估了实际性能，遵循在仿真环境中建立的理论收敛性和统计验证。图14展示了集成AUBO-i5操作器和Intel RealSense D435i相机的机器人平台，采用眼手配置。物理系统面临复杂的未建模动态，包括通信延迟、关节摩擦和照明引起的像素抖动。

**结论和未来工作**
在线学习随机视觉伺服（OL-SVS）框架为在未知随机干扰下执行视野（FoV）约束提供了稳健的解决方案，代表了在安全关键系统中人工智能（AI）的一个专门应用。通过将随机模型预测控制（SMPC）与基于AI的稀疏变分高斯过程（SVGP）推理引擎相结合，所提出的架构成功消除了...

**作者贡献声明**
刘林音：撰写——原始草稿、可视化、软件、方法论、形式分析、数据整理、概念化。
张庆辉：撰写——审阅与编辑、监督、资源获取、调查、资金获取。
吕鹏涛：撰写——审阅与编辑、监督、项目管理、方法论、形式分析。
潘凯：撰写——审阅与编辑、验证、软件。
袁成：监督、概念化。

**资助**
本工作得到了河南省重点研发计划（编号231111222100）的支持。

**利益冲突声明**
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

热点排行