综述：关于机器人操控可变形物体的研究：最新进展、未解决的问题及新的研究方向

《Neurocomputing》：A survey on robotic manipulation of deformable objects: Recent advances, open challenges and new frontiers

【字体：大中小】 时间：2026年05月27日 来源：Neurocomputing 6.5

编辑推荐：

　　顾飞达|王志鹏|朱忠攀|马家军|周彦敏|姜硕|何斌上海同济大学智能自主系统研究所，中国上海201804摘要对可变形物体（如电缆、衣物和食物）的稳健操控对于开发工业、服务和医疗应用中的下一代机器人系统至关重要。然而，历史上实现这些任务的可靠系统一直具有挑战性。与刚性物体不同，可变形

顾飞达|王志鹏|朱忠攀|马家军|周彦敏|姜硕|何斌

上海同济大学智能自主系统研究所，中国上海201804

摘要

对可变形物体（如电缆、衣物和食物）的稳健操控对于开发工业、服务和医疗应用中的下一代机器人系统至关重要。然而，历史上实现这些任务的可靠系统一直具有挑战性。与刚性物体不同，可变形物体具有无限维的状态空间、严重的自我遮挡以及复杂的动态特性，这些都对机器人的感知、建模和操控构成了重大障碍。数据驱动学习的发展以及基础模型的出现，使得可变形物体操控（DOM）的新技术成为可能。这些基于数据驱动范式的技术可以解决DOM分析方法面临的一些挑战。然而，一些现有的综述并未涵盖DOM的所有方面，而一些早期的综述也没有充分总结数据驱动方法。在本文中，我们调查了150多项相关研究，总结了DOM在感知、建模和操控方面的最新进展、开放性问题以及新的研究方向。我们认为DOM的研究为通用机器人系统的发展铺平了道路，并概述了通用机器人操控的关键未来方向。具体来说，我们提倡视觉-语言-动作模型与强化学习及世界模型的算法协同作用、配备触觉传感器的通用高自由度灵巧手，以及大规模的全面评估。

引言

操控物体的能力是机器人技术的基石之一，它使无数任务实现了自动化。在过去的几十年里，机器人操控研究取得了显著进展，旨在利用机器臂和末端执行器直接与世界互动并完成任务[1]。

机器人操控中的一个常见假设是物体是刚性的[2]。然而，这一假设并不适用于所有物体和操控场景，因为任何物体在受到外力作用时都会发生变形。只有当变形在操控过程中可以忽略不计时，刚性才能被视为一个有效的近似。

使机器人能够操控可变形物体（DOs）为医疗手术、工业制造、食品加工和老年护理等多个领域开辟了广泛的应用前景。这些应用具有巨大的经济效益。图1展示了各个领域的一些应用实例。在医疗领域，机器人可以协助进行各种手术[3]、[4]、[5]、[6]。在制造工厂中，机器人可以操控可变形物体以减轻工人的体力负担[7]、[8]、[9]、[10]。在食品加工中，使用机器人可以降低劳动力成本[11]、[12]、[13]、[14]。机器人还可以协助日常活动[15]、[16]、[17]、[18]。

尽管可变形物体操控（DOM）非常重要，但由于其感知、建模和操控的复杂性，历史上对其的研究相对较少。在操控可变形物体时，DOM的规划策略不仅应关注机器人的运动，还需要考虑被操控的物体本身。然而，可变形物体具有无限维度、严重的自我遮挡和复杂的动态特性，这使得DOM极具挑战性。数据驱动学习的最新发展以及基础模型的出现[19]、[20]、[21]、[22]为DOM提供了有用的技术。数据驱动方法可以解决传统DOM方法的一些局限性[23]。随着这些进步，DOM研究有望将机器人操控能力从结构化的刚性环境扩展到非结构化的物理世界，最终为实现通用机器人系统铺平道路。图2展示了一个典型的DOM机器人系统。

以往的综述[24]、[25]主要集中在单一类别物体的操控上，例如服装。一些过去的综述[26]、[27]、[28]主要关注可变形物体的建模。之前的综述[29]、[30]较为全面，但主要侧重于分析方法。Yin等人[31]（2021年）的综述涵盖了分析方法和数据驱动方法，但该综述发表在基础模型出现之前。自那时以来，基础模型的快速发展重塑了机器人操控的研究范式。我们的综述提供了关于可变形物体感知、建模和操控的分析方法和数据驱动方法的最新和全面总结，突出了基础模型的新兴作用。我们的贡献总结如下：

(1)

在感知方面，我们将方法分为状态表示（基于3D粒子的表示、基于关键点的表示和基于潜力的表示）和物理属性估计（基于视觉的估计、基于触觉的估计以及结合基础模型的语义物理推理）。我们的综述表明，这些现有方法是互补的，强调了利用每种方法优势的必要性。

(2)

在建模方面，我们回顾了分析方法和数据驱动方法，对比了分析方法（如雅可比模型和基于GNN的模型）与新兴的世界模型（这些模型无需显式状态估计）。

(3)

在操控方面，我们调查了包括分析方法和数据驱动方法在内的各种操控技术，重点讨论了扩散策略、强化学习和视觉-语言-动作模型。此外，我们还讨论了用于高级规划的基础模型。

(4)

我们专门讨论了灵巧操控，强调了配备触觉传感器的灵巧手。我们还回顾了评估平台，涵盖了从基于物理的仿真到真实到仿真的数字孪生以及生成式视频评估的演变。

(5)

最后，我们概述了实现通用具身智能的关键未来方向，特别是提倡视觉-语言-动作模型与强化学习及世界模型的算法协同作用、采用配备触觉传感器的通用高自由度灵巧手，以及大规模的全面评估。

本综述的其余部分安排如下：第2节讨论感知，第3节讨论建模，第4节讨论操控，其中包含关于灵巧操控和基准测试的专门章节。第5节总结了综述并指出了未来的研究方向。

章节片段

感知

快速、准确的多模态感知能力是机器人成功执行复杂操控任务的前提条件[44]。表示可变形物体的状态仍然是一个重大挑战，解决方案通常针对特定应用进行定制。在本综述中，可变形物体的感知任务被分为两类：状态表示和物理属性估计。综述中涉及两种感知方式：视觉和触觉。图3展示了

建模

为了执行DOM，需要一个能够根据当前状态预测后续时间步中物体状态的模型。此类模型需要考虑可变形物体的动态特性。本节回顾了分析方法和数据驱动建模方法。表4总结了主要优势、局限性和代表性文献。

操控

操控可变形物体的目标是确定驱动点处的最佳力或运动，以实现给定的任务目标。我们首先总结了针对不同类型物体的操控任务分类。然后，我们调查了从分析规划到基于学习的方法（如模仿学习（IL）、强化学习（RL）和通过基础模型进行的高级规划等关键方法。我们还回顾了灵巧操控和评估平台。表7

结论

在这篇综述中，我们全面回顾了DOM的最新进展、开放性问题以及新的研究方向。我们回顾了可变形物体感知、建模和操控方面的分析方法和数据驱动方法，突出了基础模型的新兴作用。

DOM研究将机器人操控能力扩展到了非结构化的物理世界，最终有助于实现通用机器人操控。展望未来，我们

作者贡献声明

顾飞达：撰写——审稿与编辑、初稿撰写、方法论、调查、概念化。王志鹏：撰写——审稿与编辑、监督、项目管理。朱忠攀：撰写——审稿与编辑、方法论。马家军：撰写——审稿与编辑、方法论、调查。周彦敏：撰写——审稿与编辑、监督。姜硕：撰写——审稿与编辑、方法论。何斌：撰写——审稿与编辑、监督。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。

顾飞达于2020年在澳大利亚悉尼大学获得电子工程硕士学位。他目前正在上海同济大学攻读智能科学与技术博士学位。他的当前研究兴趣包括可变形物体的机器人操控和模仿学习。

摘要

引言

章节片段

感知

建模

操控

结论

作者贡献声明

利益冲突声明

热点排行