面向对称敏感姿态估计的对称物体类别旋转表示

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《INTERNATIONAL JOURNAL OF COMPUTER VISION》：Towards Symmetry-sensitive Pose Estimation: A Rotation Representation for Symmetric Object Classes

【字体：大中小】 时间：2026年04月08日 来源：INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3

编辑推荐：

　　对称物体在日常生活和工业中十分常见，然而其固有的朝向歧义性阻碍深度学习网络进行姿态估计训练的问题在文献中很少被讨论。为应对这些歧义性，现有方案通常需要设计特定的损失函数和网络架构，或依赖对称不变性评估指标。相比之下，研究人员聚焦于旋转本身的数值表示，利用从物体

对称物体在日常生活和工业中十分常见，然而其固有的朝向歧义性阻碍深度学习网络进行姿态估计训练的问题在文献中很少被讨论。为应对这些歧义性，现有方案通常需要设计特定的损失函数和网络架构，或依赖对称不变性评估指标。相比之下，研究人员聚焦于旋转本身的数值表示，利用从物体形状导出的对称度修改三角恒等式。研究人员使用所提出的表示方法SARR（Symmetry-Aware Rotation Representation，对称感知旋转表示），在两个流行的6D位姿估计数据集T-LESS和ITODD中为非对称物体获得规范（对称解析）姿态，其中SARR相对于视觉外观是独特且连续的。这使得研究人员能够使用标准卷积神经网络（CNN，Convolutional Neural Network）进行三维朝向估计，其性能通过对称敏感的余弦距离ARC（Average Recall under Cosine distance）进行评估。研究人员的网络在ARC指标上优于现有技术水平，并在使用传统对称不变性度量时取得令人满意的性能。该方法不需要任何三维模型，仅需深度图像作为输入，或作为附加实验的一部分，使用无纹理RGB/灰度图像作为输入。研究人员还证明，即使在无需预先了解物体对称属性的推理场景中，使用SARR训练的网络也优于使用旋转矩阵、欧拉角（Euler angles）、四元数（quaternions）、标准三角函数或最近流行的6D表示训练的网络。代码和可视化工具包可在https://github.com/akriegler/SARR获取。

6D位姿估计是实现机器人抓取与操作任务（如箱柜拣选）以及虚拟现实和增强现实应用的先决条件。随着深度学习方法的采用和大规模训练数据集的使用，物体姿态估计取得了显著进展，但关于旋转对称物体带来的挑战，特别是由此产生的歧义性问题，仍鲜有深入讨论。对于对称物体，其视觉表征与数值旋转表示之间的双射关系不再成立：多个朝向对应同一视觉输入，导致多峰分布无法被明确学习。现有方法通常通过两种途径解决此问题：一是修改网络架构和损失函数以消除歧义，但这种方法需要多个网络，延长了训练时间；二是采用对称不变性评估指标，一旦网络预测出n个正确姿态中的任意一个即可获满分。然而，后者降低了对称歧义性问题的研究动机。第三种方法通过限制旋转空间仅保留规范物体姿态来恢复唯一性，但会引入不连续性——靠近对称边界的视觉相似姿态其数值表示却差异巨大。

针对上述问题，研究人员提出了SARR表示方法，在实现空间限制的同时保持对称边界处的连续性。研究人员选择BOP（Benchmark for 6D Object Pose Estimation）基准中的T-LESS和ITODD数据集进行分析，因其具有大量且多样化的对称物体。T-LESS包含30个物体，分为5个对称类别：第I类为非对称物体，第II类为绕z轴具有二重离散对称的物体，第III类为绕z轴具有四重离散对称的物体，第IV类为绕z轴具有连续对称的物体，第V类为绕x轴具有二重对称的物体。研究人员通过观察性分析而非使用HALCON软件和豪斯多夫距离（Hausdorff distance）来估计对称集合，以考虑仅由几何定义的对称性而非纹理信息。

SARR的核心思想是将三角恒等式与从物体形状导出的对称度相结合。对于标准三角表示^N_trig(α,β,γ)，其由角度α、β、γ的正弦和余弦值组成。SARR通过修改这些恒等式，使表示能够反映对称轴上的周期性行为。具体而言，对于每个对称轴，对称度决定了对应三角函数的频率。例如，对于第II类物体绕z轴的二重对称，频率为π；对于第III类绕z轴的四重对称，频率为π/2。对于第IV类的连续对称，研究人员将对应分量设为零以消除歧义。

研究人员使用修改后的CenterNet网络与HardNet骨干进行实验，采用PyTorch框架和Adam优化器，使用余弦距离和L1损失优化旋转参数。实验设置包括四种训练范围：物体级别（每个物体独立训练）、对称级别（每个对称类别训练一个网络）、数据集级别（整个数据集训练一个网络）以及数据集*级别（附加对称分类任务）。输入模态主要为深度图像，同时进行了RGB/灰度图像的消融实验。评估指标包括对称敏感的ARC、对称不变的ARB（由VSD、MSSD、MSPD平均得到）以及A(M)GPD衍生的ARG。

在T-LESS数据集上，SARR-深度网络在ARC指标上优于所有对比方法。具体而言，SARR-深度-数据集*网络虽然增加了对称分类任务，但朝向估计性能仅略有下降，同时对称分类准确率达78.6%（SiSo任务）和77.8%（ViVo任务）。与其他旋转表示的对比显示，SARR在所有范围、指标和任务中均优于旋转矩阵、欧拉角、四元数、标准三角函数和6D表示。使用未限制表示的网络表现极差，特别是在ARC指标上。RGB输入的消融实验表明，对于对象和对称范围网络性能显著下降，但数据集范围网络性能仍具可比性。

在ITODD数据集上，SARR-深度网络在严格的ARC指标上优于SC6D方法。值得注意的是，SARR-深度-数据集*网络表现最佳，对称分类准确率达91.0%（SiSo）和94.2%（ViVo），研究人员推测对称类别标签可能作为优化引导，帮助区分损失表面上拓扑差异显著的区域。灰度输入实验效果较差，原因在于合成灰度训练图像与真实灰度评估图像存在显著外观差异。

综合分析结果，使用SARR表示相比第二优表示的绝对性能提升约为3-5%，相对提升可达11%。该表示能够很好地跨数据集泛化，附加对称分类任务对朝向估计影响甚微甚至有益。研究结果表明，仅依赖评估指标的对称不变性和标准旋转表示会因优化过程中的歧义性而导致性能低下。

在结论部分，研究人员指出SARR通过直接操作标注数据，使任何姿态估计网络都能自然地考虑物体对称性，比之前的方法更为优雅。该表示方案具有通用性，可扩展至本研究未涵盖的更多对称类别。未来工作包括分析其他数据集和更深层的网络（如Transformers），将平移预测纳入以实现完整6D位姿估计，以及融合深度与RGB信息同时保持任凭文无关的对称性定义。研究人员还提到，解耦对称分类与姿态回归任务可能带来额外收益。

联系信箱：

粤ICP备09063491号

热点排行