自适应视觉-触觉融合强化学习方法用于水下机械臂抓取

《Journal of Marine Science and Engineering》:An Adaptive Visual–Tactile Fusion Reinforcement Learning Method for Underwater Manipulator Grasping

【字体: 时间:2026年06月10日 来源:Journal of Marine Science and Engineering 2.8

编辑推荐:

  水下机械臂抓取仍然具有挑战性,因为图像模糊、光衰减和流动引起的扰动会降低感知和控制。这些因素使得目标定位、接触判断和稳定提升变得困难,尤其是当视觉退化和触觉波动同时发生时。研究人员提出了AVT-TD3,一种用于水下机械臂抓取的自适应视觉-触觉融合强化学习方法。

  
水下机械臂抓取仍然具有挑战性,因为图像模糊、光衰减和流动引起的扰动会降低感知和控制。这些因素使得目标定位、接触判断和稳定提升变得困难,尤其是当视觉退化和触觉波动同时发生时。研究人员提出了AVT-TD3,一种用于水下机械臂抓取的自适应视觉-触觉融合强化学习方法。AVT-TD3从视觉观测、短时触觉变化和机械臂本体感觉构建统一的策略状态。一个门控融合模块调整每个感知分支的贡献,同时一个动作调制机制在接触建立和提升过程中限制突然的速度指令变化。研究人员使用双延迟深度确定性策略梯度(TD3)训练连续抓取策略,并在不同浊度、流速和目标条件下的仿真中进行了评估,随后进行了受控水槽可行性验证。仿真结果表明,AVT-TD3在成功率、完成步数、滑落率和速度指令平滑度方面优于深度确定性策略梯度(DDPG)、软演员-评论家(SAC)和标准TD3。在标准测试场景中,AVT-TD3达到了92.7%的成功率、平均76个完成步数、4.1%的滑落率和0.20的动作变化幅度。受控水槽测试进一步支持了部署AVT-TD3的可行性,尽管开放水域验证仍有待未来工作。
**论文解读:自适应视觉-触觉融合强化学习用于水下机械臂抓取**

水下机器人在海洋资源采样、海底基础设施维护和水下回收等任务中,需要与物体交互并完成可靠抓取。然而,水下环境中的图像模糊、光衰减和流体扰动严重降低了视觉感知和控制精度。目标定位、接触判断和稳定提升变得尤为困难,尤其是在视觉退化与触觉波动同时发生时。现有研究虽在视觉增强、力控制和学习型操作上取得进展,但近距离操纵仍受限于视觉质量下降、接触信息受流动干扰,以及末端执行器提升时的命令不稳定性。为此,研究人员提出了一种自适应视觉-触觉融合强化学习方法AVT-TD3,用于水下机械臂抓取,旨在统一处理视觉退化、流体诱导的触觉波动和提升阶段的命令突变问题。该研究发表在《Journal of Marine Science and Engineering》。

研究人员开展的研究主要包括:提出AVT-TD3方法,构建统一决策状态(融合视觉观测、短时触觉编码和机械臂本体感觉),引入门控融合模块动态调整各感知分支贡献,并设计动作调制机制以在接触建立和提升阶段限制速度指令突变。在PyBullet仿真环境中训练连续抓取策略,对比深度确定性策略梯度(DDPG)、软演员-评论家(SAC)和标准TD3基线,并进行消融分析和参数敏感性测试。随后在受控水槽平台上进行可行性验证。结论表明,AVT-TD3在仿真中实现了更高的成功率、更少的完成步数、更低的滑落率和更平滑的速度命令输出,水槽实验进一步支持了其在物理平台上的部署可行性。这项研究为水下机械臂在感知退化和扰动条件下的稳定抓取提供了新的融合策略框架,具有重要的工程应用潜力。

为开展上述研究,作者主要采用了以下关键技术方法:(1)强化学习框架:基于双延迟深度确定性策略梯度(TD3)训练连续抓取策略;(2)多模态感知编码:使用卷积神经网络(CNN)编码视觉特征,利用门控循环单元(GRU)处理短时触觉序列(6维力-型接触向量),并提取机械臂关节位置、速度和末端位姿作为本体感觉特征;(3)自适应门控融合:通过Sigmoid函数生成非归一化门控系数,动态加权各模态分支,并利用视觉和触觉门控系数计算感知系数以调节动作执行尺度;(4)动作调制机制:根据感知系数缩放原始速度指令,在接触和提升阶段抑制突变命令;(5)仿真环境构建:在PyBullet中加入水动力学外部载荷(附加质量、阻力)和时变等效相对流模型,模拟触觉波动;水槽实验平台包括遥控水下航行器(ROV)、六自由度机械臂、末端执行器、前视摄像头和力传感模块。

研究结果如下:

3.1 实验设置
通过仿真环境(PyBullet)和实际水下机器人平台(包含ROV体、机械臂、力传感器、前视摄像头)分别进行训练与验证。仿真中引入浊度退化和流体扰动,并随机化目标位置、质量、摩擦系数和等效相对流速度。

3.2 仿真结果与分析

3.2.1 整体性能对比
与DDPG、SAC和标准TD3相比,AVT-TD3在标准测试场景中达到最高成功率(92.7%)、最少平均完成步数(76)、最低滑落率(4.1%)和最小动作变化幅度(0.20)。在超出训练范围的浊度和流速应力测试中,AVT-TD3仍保持最高成功率,显示出更强的鲁棒性。

3.2.2 消融研究
通过逐步引入触觉编码(GRU)、门控融合和动作调制,比较VT-Concat-TD3等变体。结果显示:短时触觉编码提高了接触判断准确性;门控融合降低了动作变化幅度;动作调制进一步改善了命令平滑性和成功率,最终AVT-TD3相比直接拼接基线实现约17-18个百分点的成功率提升和约14个百分点的滑落率降低。

3.2.3 定性机制分析
门控系数分析显示:在接近阶段视觉门控系数较高,随浊度增加而下降;接触阶段触觉门控系数升高。动作变化曲线表明,AVT-TD3在接触建立和提升阶段的峰值显著低于无调制变体,验证了动作调制对突发命令的抑制作用。

3.2.4 参数敏感性分析
在触觉时间窗口长度、融合设计(固定系数、归一化门控等)、最小执行尺度和奖励权重等参数变化下,AVT-TD3表现稳定,默认参数组合提供了最优平衡,表明方法不依赖于单一手动调节参数。

3.3 受控水槽实验
在受控水槽中验证部署可行性。静水条件清水中成功率达到73.3%±8.1%,轻浊度下降至60.0%±11.6%,重浊度降至46.7%±12.9%,完成时间增加,滑落率上升。在扰动流条件下性能进一步下降,重浊度加扰动流时成功率仅26.7%±8.1%。失败模式分析表明视觉退化是主要瓶颈,流体扰动加剧了提升阶段的不稳定性。

讨论部分指出:AVT-TD3通过短时触觉编码、自适应门控融合和命令级动作调制分别改善了接触判断、模态贡献调整和命令稳定性。消融结果证实各组件作用不同,门控融合作用于状态构建,动作调制作用于输出执行。参数敏感性分析支持默认参数平衡性。局限性包括:实验聚焦于静态单目标抓取,缺乏物理基线对比,水动力模型采用等效输入简化,开放水域验证和更广泛的目标类型测试尚未完成。

研究结论翻译如下:研究人员提出了AVT-TD3,一种用于水下机械臂抓取的自适应视觉-触觉融合强化学习方法。该方法结合视觉观测、短时触觉编码和机械臂本体感觉构建统一决策状态。自适应门控融合调整不同感知分支的贡献,动作调制减少接触建立和提升过程中的速度指令突变。仿真结果表明,AVT-TD3在标准和退化测试条件下优于DDPG、SAC和标准TD3。在标准测试场景中,AVT-TD3获得了92.7%的成功率、平均76个完成步数、4.1%的滑落率和0.20的动作变化幅度。消融结果表明,时间触觉编码、自适应融合和动作调制有助于在测试仿真设置内提高成功率、减少滑落和实现更平滑的命令输出。参数敏感性分析进一步表明所选超参数在测试范围内提供了合理平衡。受控水槽实验支持了在物理水下平台上部署学习策略的可行性,但无法证明其相对于基线方法的实际优越性。开放水域验证和物理基线比较仍需进行。综合来看,这些结果表明,在测试的仿真和受控水槽条件下,具有命令级调制的自适应视觉-触觉融合可以改善水下机械臂抓取的稳定性和鲁棒性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号