StructGCN：一种基于结构感知的图卷积网络，用于航天器姿态估计

《Chinese Journal of Aeronautics》：StructGCN: A structure-aware graph convolutional network for spacecraft pose estimation

【字体：大中小】 时间：2026年04月27日 来源：Chinese Journal of Aeronautics 5.7

编辑推荐：

　　永奇·穆 | 西阳·志 | 金南·工 | 石凯·江 | 建明·胡 | 新凯·王 | 光振·鲍哈尔滨工业大学空间光学工程研究中心，哈尔滨150001，中国 **摘要** 随着航天器数量的增加，对主动碎片清除（ADR）和在轨服务（OOS）的需求显著增加。使用单目相机精

　　永奇·穆 | 西阳·志 | 金南·工 | 石凯·江 | 建明·胡 | 新凯·王 | 光振·鲍
哈尔滨工业大学空间光学工程研究中心，哈尔滨150001，中国

**摘要**
随着航天器数量的增加，对主动碎片清除（ADR）和在轨服务（OOS）的需求显著增加。使用单目相机精确估计目标航天器的姿态在这些太空应用中起着关键作用。现有方法在准确性、稳定性和计算效率之间存在固有的权衡。为了解决这些挑战，我们首先提出了一个关键点权重自适应感知模块（KWAPM），用于表征每个关键点的相对重要性。KWAPM通过相关编码和注意力机制有效减轻了异常值和偶然错误的影响。此外，我们提出了基于航天器先验3D模型的关键点自校正网络（KSN），它隐式地建模了关键点之间的全局空间关系，以提高定位精度。最后，我们引入了一种新颖的双编码器交叉注意力图卷积网络（DECA-GCN）。通过将语义关键点编码为图节点，并聚合2D关键点和3D优先级之间的邻域特征，我们实现了高效且高精度的航天器姿态估计。在航天器姿态估计数据集（SPEED）、SPEED+和SWISSCUBE数据集上的广泛实验表明，与现有技术相比，所提出的方法表现出竞争力，并且比现有的单阶段算法具有更快的推理速度。在嵌入式设备上的实验结果表明，所提出的方法的推理速度是现有技术的两倍，同时保持了高精度。

**1. 引言**
近年来，航天器数量的迅速增加导致了卫星故障的增多以及太空碎片威胁的加大，逐渐将Kessler和Cour-Palais预测的空间环境恶化变成了现实。因此，对主动碎片清除（ADR）[2] [3] [4] [5] 和在轨服务（OOS）[6] [7] [8] [9] 的需求稳步上升，这些任务成为太空国家追求的关键战略技术。ADR和OOS任务的一个基本前提是准确估计非合作空间物体（如太空碎片或服务目标航天器）的姿态。常见的传感技术可以根据平台分为地面观测和空间观测，根据模式分为雷达、激光和光学传感。其中，空间观测不受大气干扰的影响，且受到的几何约束较少，能够长时间获取高质量图像，因此常用于这些任务。虽然雷达和激光技术具有高精度，但通常需要高功率、大型设备，并且成本较高，从而限制了它们在小型航天器平台上的应用[3] [10] [11] [12] [13] [14]。在光学传感方法中，使用单目和双目相机系统。由于结构简单和操作灵活性强，单目相机在ADR和OOS任务中得到了广泛应用[15] [16] [17] [18] [19]。因此，我们的研究重点是基于单目光学相机的空间观测场景。

基于单目光学图像的航天器姿态估计方法大致可以分为依赖手工特征的传统方法和基于深度学习的方法[20] [21] [22] [23] [24] [25]。传统技术通常使用SIFT、SURF和ORB[26] [27] [28]等特征描述符来检测关键点。然而，在具有挑战性的空间成像条件下（如运动模糊和光照变化），这些手工设计的特征由于图像特征的巨大变化而具有较差的鲁棒性和可靠性。相比之下，深度学习方法利用大规模数据集驱动算法学习，并使用深度卷积层从图像中提取航天器的高层语义特征。这些学习到的特征对图像质量下降具有更好的抵抗力，并在最近的姿态估计研究中取得了显著进展。大多数当前的基于深度学习的航天器姿态估计流程采用两阶段框架：首先使用神经网络检测关键点，然后将2D-3D对应关系输入到透视n点（PnP）求解器（如EPnP[29]、P3P[30]或SQPnP[30]）中计算最终姿态。然而，这种非端到端的流程限制了姿态估计的精度。值得注意的是，我们观察到，相同的关键点定位错误会导致不同的姿态估计错误，这取决于检测条件——这是一种不可预测和非确定性的现象。

为了克服这些限制，我们提出了一种端到端的网络架构，用图卷积结构替换了传统的基于PnP的姿态估计流程，将姿态估计误差直接整合到损失函数中，以提高准确性和鲁棒性。此外，由于航天器在其大部分运行寿命中可以被视为刚体，其结构组件的空间配置保持稳定。这意味着关键点之间存在潜在的空间约束——这是现有方法中经常被忽视的一个方面。为了解决这个问题，我们引入了全局结构约束以提高关键点定位精度并实现高精度姿态估计。最后，考虑到ADR和OOS任务的实际需求，所提出的网络架构在计算效率方面进行了精心设计，以确保其适用于航天器平台的实时部署。

总的来说，当前研究面临两个主要挑战：（A）在关键点定位期间没有充分结合先验结构信息，这阻碍了定位精度的进一步提高；（B）使用PnP将非端到端属性引入网络，从而限制了姿态估计的精度。为了解决上述挑战，本工作的关键贡献总结如下：
(1) 我们提出了一个关键点权重自适应感知模块（KWAPM），有效地解决了由于遮挡或航天器照明不良导致的异常关键点所带来的挑战。该模块利用相关编码和注意力机制计算关键点之间的相对权重，从而减少了异常值对最终姿态估计的影响。
(2) 我们提出了一种新颖的关键点自校正网络（KSN），用于改进航天器关键点定位。通过使用图卷积网络，KSN隐式地建模了几何关系并聚合了全局语义特征，从而提高了定位精度。
(3) 我们提出了一个基于双编码器交叉注意力图卷积网络（DECA-GCN）的姿态估计头。创新地将图卷积应用于航天器姿态估计领域，我们将航天器的物理结构建模为图，以提取关键点之间的强健全局特征。它实现了端到端的准确和稳定姿态估计，消除了对PnP的依赖，同时保持了网络的可解释性。

**2. 相关工作**
航天器姿态估计方法可分为传统方法和基于深度学习的方法。如引言中所讨论的，依赖手工特征的传统方法由于图像外观的显著变化而具有较差的鲁棒性和可靠性，在具有挑战性的空间成像条件下效果不佳。因此，近年来深度学习方法已成为主导趋势。基于深度学习的方法通常可以分为两类：直接（端到端）方法和基于关键点的间接方法。下面，我们回顾了这两种类型的方法以及图卷积网络在姿态估计领域的当前研究进展。

**2.1. 直接端到端方法（单阶段方法）**
直接方法遵循相对简单的流程，其中使用端到端网络直接将光学图像映射到航天器的姿态（包括旋转和平移），相对于观测平台。这些模型通常使用姿态估计损失函数进行训练，这些损失函数直接监督预测的姿态参数。Sharma等人提出了SPN[31]，这是一个单目端到端框架，通过联合估计旋转和平移直接从图像中回归航天器姿态。URSONet[32]使用带有挤压-激励（SE）模块的ResNet-50[33]作为骨干，在端到端学习框架中将姿态估计定义为方向分类和四元数回归的组合，而Mobile-URSONet[35]进一步降低了模型复杂性以满足机载计算限制。最近，Park和D’Amico提出了SPNv2[36c]，利用了领域适应。SPNv2采用多任务学习架构，包括边界框检测、姿态回归和对象分割。它基于EfficientDet[37]构建，结合了EfficientNet[38]和BiFPN[37]，实现了多尺度特征的融合。多任务学习用于防止共享特征提取器过拟合于任务特定特征，从而促进领域泛化。Huang等人[39]使用HRNet作为骨干来回归航天器关键点的2D位置，并进一步设计了一个由卷积层和全连接层组成的姿态估计子网络。Wang等人[40]提出了GDR-Net，它使用PatchPnP和轻量级多层感知器（MLP）来学习图像的局部特征分布与预测的几何点云之间的映射。然而，这种方法中引入的几何先验不足，导致学习到的映射精度有限。Yang等人[41]提出了一种方法，通过反向传播传播6自由度姿态的概率密度，将PnP问题转化为一个可微分模块。这使得开发出一种单阶段的、完全端到端的网络进行空间目标姿态估计，实现了端到端方法中的先进性能。

然而，尽管直接方法简单且训练效率高，但由于缺乏明确的物理先验，它们通常可解释性较差。深度学习模型的黑盒性质使得难以追踪或解释错误预测的原因，在安全性和可靠性至关重要的高风险场景中部署时带来了挑战。此外，缺乏明确的几何建模通常导致姿态精度不佳。正如当前研究结果所示，与结合几何推理的混合方法相比，直接方法通常表现较差。

**2.2. 混合模块化方法（两阶段方法）**
混合方法通常涉及使用深度神经网络预测图像中预定义的航天器关键点的2D坐标。然后使用这些2D关键点及其在先验模型上的相应3D位置和相机内在参数作为输入，输入到经典姿态求解器（如迭代PnP或EPnP）中恢复航天器的姿态。因此，这类方法通常被称为两阶段方法，包括关键点检测，然后使用透视n点（PnP）解决方案从2D-3D对应关系中估计姿态。

对于关键点检测，现有方法大致可以分为直接坐标回归和基于热图的定位。早期方法直接从深度特征回归关键点坐标[42]，而较新的方法预测关键点热图[43]或利用全局建模机制（如变换器[44]。此外，Liu等人[45]提出了两种基于变分自编码器的姿态估计框架：PE-VAE，它结合了图像重建机制来规范学习到的特征；FA-VAE，它通过从潜在特征重建航天器的形状来强制形状约束，从而提高了姿态估计的准确性和效率。对于PnP问题，常用的算法包括直接线性变换（DLT）[30]、P3P[30]、EPnP[29]。这些方法在给定一组3D点及其对应的2D投影的情况下估计相机姿态（旋转矩阵R和平移向量t）。为了提高鲁棒性，经常使用随机样本一致性（RANSAC）[46]来拒绝异常值，并使用Levenberg-Marquardt（LM）[47]算法来细化初始估计并提高精度。然而，混合方法依赖于不可微分的PnP求解器从2D关键点推断姿态，这对学习造成了限制。网络只能基于2D关键点错误进行监督，这些错误不一定与最终姿态估计误差相关。实际上，分布在不同关键点上的相同2D定位错误可能导致截然不同的姿态结果——这对实际应用来说是一个不理想的属性。在航天器姿态估量的背景下，端到端方法提供了良好的实时性能和强大的鲁棒性。然而，缺乏明确的物理先验通常限制了它们的估计精度。相比之下，混合方法引入了关键点级别的监督，从而提高了精度和可解释性。然而，这些方法通常在关键点检测方面效率较低，并且对异常值和噪声非常敏感。这激发了我们设计一种新方法的动力，该方法结合了两种范式的优势——使用关键点信息进行高效和准确的姿态估计，同时保持端到端的可微分性。为此，我们提出用图卷积网络（GCN）基的姿态回归头替换不可微分的PnP求解器，该网络模拟了关键点之间的强全局相关性。这种设计自然结合了几何先验，提高了姿态估计精度，并实现了端到端训练和推理。因此，我们的方法同时保持了实时性能和鲁棒性，使其适用于实际空间应用的部署。

**2.3.**图卷积网络在姿态估计中的应用
图卷积网络（GCNs）[48]、[49]、[50]、[51]最初是为从图结构数据（如社交网络、分子图和知识图）中学习而开发的，并在这些领域取得了令人印象深刻的结果。与传统的卷积神经网络（CNNs）不同——后者通过局部感受野和池化层从低级特征传播信息到高级特征——GCNs通过聚合图结构中每个节点及其邻居的特征来更新节点表示。这使得GCNs能够有效地捕获局部邻域信息以及节点之间的全局依赖关系。鉴于其在建模元素之间关系方面的强大能力，GCNs最近在人类姿态估计领域受到了关注。例如，HOPE-Net 52引入了一种基于GCN的架构——自适应图U-Net，该架构结合了新的图卷积、池化和反池化层，将手和物体的2D坐标转换为精确的3D位置。通过将手-物体系统建模为图，这种方法利用了邻域信息来推断更准确的姿态估计，并更好地理解手和物体之间的交互。基于图的方法不仅提高了估计精度，还保持了实时性能。同样，Graph-PCNN 53集成了图姿态精细化（GPR）模块，通过基于关键点之间的关系来增强姿态估计精度。通过捕捉这些空间相关性，模型显著提高了关键点定位的准确性，从而提高了整体人类姿态估计的性能。

受到这些成功的启发，我们探索将图卷积网络集成到航天器姿态估计中。我们的动机是利用GCNs建模关键点之间全局依赖关系的能力，从而提取由空间关系控制的潜在姿态相关特征。这种策略使我们能够超越传统的关键点到姿态处理流程的限制，通过直接将物理先验嵌入网络结构中。因此，我们以端到端的方式实现了准确、稳定且高效的航天器姿态估计，结合了基于关键点的方法的可解释性和几何一致性以及深度学习模型的可训练性和推理效率。

3. 方法
3.1. 概述
为了解决单阶段方法因缺乏物理先验而导致的精度下降问题，以及两阶段方法中使用PnP引入的效率损失，我们设计了一个端到端的网络，其中深度嵌入了从航天器结构特性中得出的物理先验，如图1所示。所提出的框架由四个主要组件组成：轻量级的基于热图的骨干网络、KWAPM、KSN和DECA-GCN。在训练过程中，我们对不同模块的输出应用多任务监督，这增强了训练的稳定性并促进了组件之间的协作优化。

下载：下载高分辨率图像（669KB）
下载：下载全尺寸图像
图1. StructGCN的架构。

骨干网络负责从输入图像中提取航天器的深度多尺度语义特征。采用双向特征金字塔网络（BiFPN）模块进行多尺度特征融合，以适应不同观察距离导致的外观变化。考虑到航天器平台的严格要求（如内存使用、计算效率和可部署性），我们采用了专为资源受限设备的高效推理而设计的轻量级架构 ShuffleNet。然后将融合的多尺度特征传递给热图预测头，该头为11个预定义的关键点生成热图。为了确保端到端的可微分性，我们使用SoftArgmax层将热图转换为连续的2D关键点坐标。随后，关键点的初步2D位置和置信度分数被输入到KWAPM模块中，该模块计算不同关键点之间的相对权重分布。为了提高定位精度，KSN模块基于相对权重感知的输出迭代细化2D关键点位置。最后，精细化的精确关键点位置及其相应的相对权重被输入到DECA-GCN模块中，该模块提取并聚合航天器关键点的全局特征以生成最终姿态预测。

在本章的后续部分，我们首先介绍选定的骨干网络，然后详细描述KWAPM、KSN和DECA-GCN模块。最后，将介绍用于训练网络的损失函数。

3.2. 骨干网络
为了满足航天器姿态估计应用在轨部署的要求，我们仔细考虑了模型参数、内存访问和计算资源等约束。我们的骨干网络基于ShuffleNetV2 54，该网络以其低参数数量和高效率而闻名。ShuffleNet通过采用结构优化设计，在固定参数数量下最小化内存访问成本（MAC）。其核心单元使用逐点组卷积和通道混合操作，显著降低了计算成本，同时保持了高精度。此外，由于在不同观察距离下航天器在图像中的表观大小存在显著变化，我们集成了BiFPN来融合来自骨干网络的多尺度特征。BiFPN生成的增强型多分辨率特征图使网络能够适应不同尺度的航天器目标，使其适用于不同的观察距离条件。对于后续的热图估计，使用BiFPN的第二层高分辨率输出生成准确且空间精确的热图。随后，BiFPN输出的特征图被输入到软Argmax层中，以计算关键点x2D的2D坐标，同时保持端到端的网络训练。

3.3. 关键点权重自适应感知模块（KWAPM）
在基于空间的观察场景中，由于纹理信息较弱、光照条件不佳、偶尔的自遮挡以及关键点超出视野范围等原因，关键点提取的准确性仍然是一个挑战。这些因素可能导致错误的关键点，从而显著降低最终姿态估计的准确性。为了解决这个问题，我们设计了一个关键点权重自适应感知模块，该模块通过建模关键点的置信度和结构相关性来学习为每个关键点分配自适应的重要性权重，如图2所示。这种机制有效减少了低质量关键点对最终姿态估计的影响。

下载：下载高分辨率图像（356KB）
下载：下载全尺寸图像
图2. KWAPM的结构。

具体来说，在通过SoftArgmax操作从热图获得关键点坐标和置信度分数后，我们计算每个关键点的权重，该权重不仅反映了其检测置信度，还反映了其在航天器结构中的相对重要性。第i个关键点的权重定义为：
(1)
wi = fci, xi, yi - xj, yj, cjj ≠ i
其中f表示KWAPM实现的功能映射，ci, cj表示关键点的置信度分数，xi, yi, xj, yj表示关键点的2D坐标，wi表示分配给第i个关键点的权重。位置相关矩阵表示每对关键点之间的相对空间关系，而置信度相关矩阵捕捉每对关键点之间的组合置信度。我们通过计算关键点之间的成对像素距离来构建位置相关矩阵，并通过组合每对关键点的置信度分数来构建置信度相关矩阵。这两个矩阵被连接起来，并通过MLP生成一个偏置项，用于引导自注意力模块。接下来，我们将位置和置信度分数共同嵌入到关键点标记中，并应用自注意力来捕获关键点之间的结构依赖关系，从而为每个关键点生成一个结构感知的表示。最后，我们应用线性投影 followed by Softmax激活函数来生成所有关键点的标准化权重分布。该模块使网络能够动态降低不可靠关键点的权重，并强调那些更具结构信息的关键点，从而提高整体姿态估计的鲁棒性和准确性。

3.4. 关键点自校正网络（KSN）
由于不同关键点的空间位置不同，它们在图像中相应邻域的局部特征也不同。在空间成像环境中，诸如单个光源与航天器表面涂层材料反射或航天器自遮挡等现象可能导致某些关键点的邻域信息部分丢失，从而导致关键点定位精度显著下降。此外，即使在正常条件下，个别关键点位置的预测也可能包含不可避免的错误，这些错误可能来自有限的图像分辨率或不足的纹理信息。在这种情况下，利用关键点的全局分布可以帮助纠正个别预测中的错误，从而稳定整体关键点配置。在这种情况下，仅仅依赖所有关键点的初始位置进行姿态估计可能会导致估计精度降低。由于关键点坐标不是单独估计的，而是使用多个热图作为输入同时预测的，因此关键点的全局特征相对稳定。即使由于光照效应难以提取某些关键点，也可以通过多个关键点的组合信息有效地捕获这些全局特征。因此，有必要设计一个关键点位置自校正网络。核心思想是隐式建立关键点之间的全局空间关系，并根据全局分布细化局部位置。这种方法在纠正个别关键点位置和提高整体关键点精度方面被证明是有效的，尤其是在图像质量差或自遮挡条件下。我们的关键点位置自校正网络的结构如图3所示。

下载：下载高分辨率图像（190KB）
下载：下载全尺寸图像
图3. KSN的网络架构。

关键点位置自校正网络的输入包括先前预测的2D关键点坐标及其相关权重、关键点的先验3D坐标，以及一个精心设计的表示航天器关键点之间结构关系的邻接矩阵。关键点自校正网络使用图卷积网络来稳健地提取多个关键点的全球特征。因此，关键点位置细化任务转化为图上的全局特征预测问题，使网络能够为每个关键点输出校正偏移量。GCN中的节点数量对应于关键点的数量，每个节点的输入特征向量定义如下：
(2)
hi = x?i2D, yi2D, W^i2D, Xi3D, Yi3D, Zi3D
这里，hi表示一个六维向量；xi2D, yi2D和Xi3D, Yi3D, Zi3D表示第i个关键点的2D和3D坐标，带帽子的变量表示预测值。Wi2D表示第i个关键点的权重。2D信息来自前面的网络，而3D信息来自模型先验。

图卷积的核心概念在于聚合邻域特征。每个节点的表示不仅由其自身的特征决定，还通过与 neighboring nodes的信息交换进行更新。这个过程可以视为一种信息传播机制，节点通过从它们的邻居那里聚合信息来逐步学习上下文关系。关键点特征通过单个GCN层的传播公式如下：
(3)
H(1) = σD～-1/2A～D～-1/2XW(0)
这里，X表示输入节点特征矩阵，由每个节点的输入特征hi组成；W(0)是第一层的权重矩阵；A～表示添加了自环的邻接矩阵；D～是A～的度矩阵，用于规范化邻接矩阵。

多个GCN层通过堆叠图卷积操作逐步整合来自远距离邻居的信息：
(4)
H(l+1) = σA^H(l)W(l)
第l个GCN层的输出作为后续层的输入，或直接用于下游回归任务。在提出的方法中，图卷积网络的输出被输入到全连接层中，以回归关键点位置的校正偏移量。

利用图卷积结构有助于更好地捕获航天器关键点之间的全局特征，促进不同区域位置信息之间的互补交互，最终实现更准确的关键点定位。例如，如果航天器特定表面的三个关键点被准确定位，但由于纹理特征较弱或不明确，第四个关键点的位置定位精度较低，可以通过利用其他三个点的高置信度位置来校正其位置。这种校正有助于确保后续姿态估计的准确性。

通过激活函数和全连接层后，GCN输出预测的2D关键点位置的残差。这些残差被添加到原始2D预测中，得到精细化的关键点位置。这种迭代校正过程逐渐减少了定位错误。由于输入仅包含2D和3D关键点坐标，因此位置校正模块引入的计算开销最小，保持了网络的快速推理能力。

3.5. 双编码器交叉注意力-GCN（DECA-GCN）
常见的姿态估计方法包括DLT和EPnP，它们基于2D和3D关键点位置之间的对应关系来求解姿态的旋转和平移矩阵。然而，这些方法不是端到端可训练的，且在存在异常值的情况下，其准确性会显著下降。尽管RANSAC可以有效减轻由这些异常值引起的姿态估计误差，但其应用会增加计算复杂性，限制了实际部署。此外，基于PnP的方法无法明确模型姿态估计误差与关键点定位误差之间的内在关系，从而导致不可控的不确定性。因此，降低主干网络损失或提高关键点精度并不总是能够转化为更好的姿态估计性能。为了解决这些问题，我们设计了DECA-GCN，这是一个专门用于高精度姿态估计的网络头。该头旨在利用深度神经网络模拟2D关键点的PnP姿态解决效果，实现端到端训练，同时确保高效和稳健的姿态矩阵计算。先前的研究已经证明，在遮挡或模糊条件下，关键点热图的回归比直接坐标回归具有更高的准确性。因此，姿态估计头的初始设计使用热图作为输入来回归旋转和平移值。然而，考虑到网络复杂性和计算效率对可部署性的影响，后来将该设计修改为使用SoftArgmax模块从热图解码2D关键点坐标，从而取代热图作为姿态估计的直接输入。所提出的姿态估计网络架构如图4所示。它接受由关键点自校正模块优化的2D关键点位置以及外部提供的先前3D关键点位置作为输入。然后，这些输入被送入精心设计的双编码器交叉注意力模块。2D和3D位置信息由两个并行的基于Transformer的编码器模块处理，提取序列位置特征。为了建模两种模式之间的交互，采用了交叉注意力机制，使编码器能够从2D和3D数据中学习对姿态估计有益的特征。

下载：下载高分辨率图像（479KB）
下载：下载全尺寸图像

图4. DECA-GCN的架构

在获得编码后的2D和3D特征后，网络旨在复制PnP的几何推理：给定相应2D和3D点之间的固定几何关系，解决一个过定线性系统以确定姿态。为此，使用基于图的解码器根据2D-3D对应关系进行姿态估计。在这个解码器中，每个关键点的2D和3D坐标表示为不同的节点，节点特征对应于编码表示。利用了两层图卷积网络。DECA-GCN模块的计算过程如下：

首先，输入的2D和3D坐标被线性转换到一个高维特征空间：
(5)E2D = ReLU(K2D)We2D + be2D, We2D ∈ R2×d
(6)E3D = ReLU(K3D)We3D + be3D, We3D ∈ R3×d
这里，ReLU是一个非线性激活函数，be2D, be3D ∈ Rd是偏置项。然后分别对E2D和E3D进行自注意力编码。以E2D为例，假设头部的数量为h，每个头的维度为dh = d/h。对于第i个注意力头部：
(7)Qi = E2DWi, Ki = E2DWiK, Vi = E2DWiV
其中WiQ, WiK, WiV ∈ Rd×dh是投影矩阵，自注意力的输出为：
(8)Headi = softmax(QiKi)T(dh-1/2Vi)

随后，对2D和3D特征进行交互。以2D特征为例，增强的2D特征表示为：
(9)C2D = CrossAttn(Q = H2D, K = H3D, V = H3D) = softmax(H2DWQ, H3DWK)T(d-1/2H3DWV)
这里，WQ, WK, WV ∈ Rd×d表示查询、键和值投影的共享权重。

随后，增强的2D和3D特征以及由权重感知模块生成的关键点权重一起被送入图解码器。图解码器的邻接矩阵完全基于航天器的实际物理结构设计，包括机体角点之间以及天线与主体之间的实际物理连接。这种设计将真实的物理结构先验引入网络，图中显示的连接代表了实际的物理链接。最后，图解码器输出的特征通过全连接层以四元数和平移向量的形式回归姿态。

图模型能够捕捉强相关性，并在所有节点之间执行全局计算，这与PnP算法的功能非常相似。最终，聚合的图特征被送入两个单独的全连接层，分别预测旋转矩阵和平移向量。

3.6. 损失函数
我们的损失函数由四个部分组成：(A) 初始热图损失LH；(B) 2D关键点坐标损失L2D；(C) 自精炼的2D关键点坐标损失L2Dre；(D) 来自网络输出的最终姿态损失Lpose。其中，LH、L2D和L2Dre使用均方误差（MSE）计算，而Lpose采用常用的SPEED损失，计算公式如下：
(10)LR = ∑i=1N360 arccos(qgti, qpri)π
(11)Lt = ∑i=1N tpri-tgti
(12)Lpose = λRLR + λt Lt
其中qpri, tpri表示预测的旋转四元数和平移向量，qgti, tgti表示相应的真实旋转四元数和平移向量，N是关键点的数量，λR和λt是权重系数。

4. 实验
4.1. 数据集
所提出的方法在常用的航天器姿态估计数据集SPEED 55、SPEED+ 56和SWISSCUBE 57上进行了广泛评估。每个数据集的简要描述如下：
SPEED：SPEED数据集在2019年的Kelvins Pose Estimation Challenge (KPEC)中引入。它包含12000张训练图像，展示了Tango卫星在完整的6D姿态空间中的各种姿态，以及2998张未标记的测试图像。这些图像主要是Tango卫星在不同背景下的合成渲染图。
SPEED+：SPEED+数据集由斯坦福大学的空间会合实验室（SLAB）和欧洲航天局的先进概念团队联合发布，用于评估航天器姿态估计模型的准确性和鲁棒性。它包括三种类型的图像：合成图像、日光灯图像和灯光箱图像。训练集包含47966张合成图像，而测试集和验证集分别包含11994张合成图像、6740张灯光箱图像和2791张日光灯图像。合成图像是使用基于OpenGL的光学仿真软件生成的。灯光箱和日光灯图像是使用SLAB的半物理TRON仿真设施捕获的，该设施使用两种不同的照明源——灯光箱模拟地球辐射，日光灯模拟太阳辐射——以复制真实的太空照明条件。该数据集提供了图像及其对应的真实姿态以及仿真期间使用的相机参数。
SWISSCUBE：SWISSCUBE数据集使用开源的Mitsuba2渲染器生成，包含展示各种相对速度、距离和角度的序列。卫星与SWISSCUBE目标之间的观测距离从1d到10d不等，其中d表示瑞士立方体的直径（不包括天线）。该数据集包含500个场景，每个场景包含100帧，总共50000张图像。

图5展示了来自这三个数据集的示例。

4.2. 指标
为了全面评估所提出方法的有效性和可靠性，采用了多种指标，具体描述如下：
对于关键点检测的准确性Ekppos，使用航天器预测的关键点坐标与相应真实值之间的位置误差作为评估指标，计算公式如下：
(13)Ekppos = 1/MN ∑n=1N ∑m=1M kpposprmn - kpposgtmn2
其中N表示测试样本的总数，M表示关键点的总数，‖·‖2表示欧几里得范数。姿态估计的角度误差ER通过预测的航天器四元数与相应真实四元数之间的角度差异来衡量，计算公式如下：
(14)ER = 1/N ∑i=1N360 arccos(qgti, qpri)π
其中N表示测试样本的总数。姿态估计的平移误差Et定义为预测和真实相对位置之间的差异，计算公式如下：
(15)Et = ∑i=1N tpri-tgti

4.3. 实现细节
所提出的方法使用PyTorch框架实现。训练和测试在配备了NVIDIA GeForce RTX 4070 SUPER GPU的硬件上进行。输入图像被调整为768像素×512像素。应用的数据增强技术包括随机纹理变化、对比度调整、模糊、太阳耀斑模拟和噪声注入。
采用了分阶段冻结训练策略。最初，除了热图估计主干和热图预测头部之外的所有网络参数都被冻结，并仅使用热图损失进行训练。在预定义的周期数后，热图估计主干和预测头部被冻结，而关键点自校正网络和权重感知网络被解冻，并在关键点定位损失的监督下进行训练。最后，关键点自校正网络和姿态估计头部也被解冻，并使用姿态损失作为监督信号进行联合训练。
对于SPEED数据集，由于真实图像缺乏真实注释，只有训练图像包含关键点和姿态的真实值。因此，在后续实验中，训练图像被随机分为训练集、验证集和测试集，比例为9:1:2。对于SPEED+数据集，使用了47966张图像进行训练，其余11994张图像用于测试。对于SWISSCUBE数据集，选择了400个场景进行训练，其余100个场景用于验证和测试。

4.4. 与最先进方法在准确性方面的比较
为了验证所提出方法的优越性，我们将该方法与几种先进的航天器姿态估计方法进行了比较。表1总结了我们的方法在SPEED、SPEED+和SWISSCUBE数据集上的性能。评估指标包括旋转精度、平移精度和SPEED分数。
表1. 与最先进方法在准确性方面的比较

数据集方法 ER(°) ET(m) SPEED LSPnet 13.96 0.45 60 SPN 8.42 54 0.78 32 Mobile-URSONet 6.29 0.00 0.56 00 Mobile-SPEEDNet 5.21 0.00 0.25 00 GDR-Net 5.18 39 0.27 04 URSONet 2.49 0.00 0.14 50 SDPENet 1.70 03 0.13 23 PE-VAE 1.92 81 0.18 50 FA-VAE 1.66 90 0.12 49 WDR 1.83 44 0.13 35 UDA 1.43 10 0.12 42
提出的方法 1.58 20 0.12 96 SPEED+ FA-VAE 3.04 15 0.11 88 PE-VAE 3.30 01 0.20 43 UDA 3.40 39 0.13 24 WDR 3.28 49 0.11 53
提出的方法 3.11 29 0.12 10 SWISSCUBE FA-VAE 2.95 74 0.00 80 PE-VAE 3.10 50 0.01 25 UDA 2.80 37 0.01 00 WDR 2.64 13 0.00 98
提出的方法 2.71 00 0.00 71
注：红色表示同一实验组中的最佳性能，蓝色表示第二佳性能。
结果表明，所提出的方法在所有数据集上都取得了具有竞争力的性能。在SPEED数据集上，我们将所提出的方法与LSPnet 58、SPN 31、Mobile-URSONet 35、Mobile-SPEEDNet 59、GDR-Net 40、URSONet 32和SDPENet 60等代表性直接方法进行了比较。结果显示，直接方法在准确性上明显落后于所提出的方法。这种差异很可能是因为直接方法缺乏物理先验（如关键点坐标），这限制了它们精确学习图像和姿态之间复杂映射的能力。
如表1所示，与PE-VAE、FA-VAE、WDR 57和UDA 61等典型混合方法的比较表明，所提出的方法达到了接近最先进水平的姿态估计精度。具体来说，在SPEED数据集上，与最近的方法相比，所提出的方法的准确性略低于UDA，但角度误差仅相差0.1510°，位置误差相差0.0054m。然而，UDA依赖于更大的网络规模，而所提出的方法在模型大小和计算效率之间取得了良好的平衡。此外，与表现最好的端到端方法SDPE-Net相比，所提出的方法在角度误差上提高了0.1183°，位置误差上提高了0.0027m。在SPEED+和SWISSCUBE数据集上，所提出的方法在两个指标上也优于大多数两阶段方法。这些结果表明，所提出的方法在保持端到端架构的同时实现了高精度姿态估计。

这表明，所提出的方法在结合关键点的结构先验的同时，利用图卷积网络提取和预测航天器上语义关键点的全球特征，从而实现了高精度姿态估计。这种设计使得端到端训练成为可能，并实现了高精度的姿态估计。相比之下，现有方法要么未能在端到端框架中集成物理先验，要么未能充分捕捉航天器的全球结构特征，导致性能相对较低。

4.5. 与最先进方法在效率方面的比较
为了进一步展示所提出方法在模型轻量级和计算效率方面的优势，我们与几种先进的航天器姿态估计方法进行了全面比较。具体评估了三个方面：可训练参数的数量、由浮点运算（FLOPs）测量的计算复杂性和每张图像的平均推理时间。为了确保公平和一致的比较，所有模型都在相同的硬件和软件环境下进行了测试，具体细节详见实现细节。此外，仅包括了公开可用的实现方式以保证可重复性。
如表2所示，所提出的方法在参数效率方面显示出明显的优势。在所有比较的方法中，只有Mobile-URSONet的参数数量略少，但其姿态估计精度有所下降。这表明所提出的方法在效率和性能之间取得了更好的平衡。
表2与现有技术方法的效率比较：
方法 | 结构 | 参数（106） | GFLOPs | 每帧时间（毫秒）
----|------|--------|------------|------------|
UDAHourglass+PnP | 200 | 273.48 | a | 107.56 |
WDRDarknet-53+FPN+posehead | 51.5 | 12.87 | 87.2 |
Mobile-URSONet | MobileNet-v2+posehead | 7.4 | 0.63 | 91.58 |
提出方法 | ShuffleNet+BiFPN+KSN+DECA-GCN | 35.1 | 15.08 | 49.0 |
注：a表示计算成本仅包括网络部分，不包括PnP求解器的计算。

在计算复杂性和运行时间方面，虽然提出的方法没有实现最低的FLOPs值，但得益于使用ShuffleNet作为主干网络，其性能得到了显著提升。ShuffleNet专门设计用于最小化内存访问开销，从而大幅提高了推理速度。因此，提出的方法在延迟方面也有显著减少。例如，与WDR方法相比，我们的模型参数数量减少了31.8%，推理时间减少了43.8%，同时仍保持了更高的姿态估计精度。

此外，图5和图6(b)提供了不同方法在参数数量、推理时间和估计精度方面的直观比较。在这两张图中，提出的方法都更接近原点，表明其复杂性更低，执行速度更快，同时性能具有竞争力或更优越。这清楚地突显了我们网络的实用性和可部署性，特别是在计算资源受限的实时在轨场景中。

下载：下载高分辨率图片（251KB）
下载：下载全尺寸图片

图6. 提出方法与最先进方法在效率和精度上的比较。

4.6. 消融研究
在本节中，我们使用SPEED+数据集分析了每个模块和几个关键参数对提出方法的影响。目的是验证所设计模块的合理性和有效性，并评估它们对参数变化的敏感性。作为参考，PnP方法使用OpenCV的solvePnPRansac函数实现。

(1) KSN的贡献：如表3所示，进行了多次实验来比较有无KSN模块的结果。仅使用KSN模块时，关键点的标准化像素误差从0.121降至0.081。相应地，使用PnP求解器的姿态估计误差在旋转方向上减少了1.74°，在平移方向上减少了0.06米。使用我们的DECA-GCN作为求解器时，旋转误差减少了2.45°，平移误差减少了0.17米。这些结果表明KSN模块有效地提高了关键点检测精度和最终姿态估计的准确性。

表3. 在不同组件配置下，算法在SPEED+数据集上的实验结果
| KSN | KWAPM | Pnp | DECA-GCN |
|------|------|------|--------|
| 关键点误差（%） | ER(°) | ET(m) | 参数（106） | 速度（毫秒） |
| ?0.121 | 6.8 | 10.34 | 10.15 | 83.2 |
| ?0.121 | 5.89 | 0.31 | 24.8 | 139.2 |
| ?? | 0.081 | 5.07 | 0.28 | 20.44 |
| ?? | 0.081 | 3.42 | 0.14 | 35.1 |
| ?? | 0.071 | 3.55 | 0.17 | 20.46 | 95.2 |
| ??? | 0.071 | 3.11 | 0.12 | 35.12 | 49.0 |

(2) KWAPM的贡献：KWAPM模块旨在为不同的关键点分配权重，并减轻低置信度或高误差点的影响，以提高姿态估计的准确性。表3显示，加入KWAPM后，关键点误差进一步降低，最低达到0.071。姿态估计精度也得到了提高。对于KSN+PnP配置，旋转误差减少了1.52°，平移误差减少了0.11米。在KSN+DECA-GCN的情况下，旋转误差减少了0.31°，平移误差减少了0.02米。这表明KWAPM通过减轻异常值的不利影响，对姿态精度有积极贡献。

(3) DECA-GCN的贡献：为了评估我们的DECA-GCN姿态求解器与传统的PnP求解器的准确性和计算效率，进行了多次比较实验。不使用KSN和KWAPM时，DECA-GCN的旋转误差比PnP低0.92°，平移误差低0.03米。更重要的是，DECA-GCN将每张图像的推理时间缩短至仅39.2毫秒，比PnP快52.9%。当与KSN和KWAPM结合使用时，DECA-GCN进一步将旋转误差减少了0.31°，平移误差减少了0.05米，同时推理时间减少了48.5%。这些结果表明，DECA-GCN在精度上可与传统PnP求解器相媲美甚至更好，同时显著提高了推理速度。

(4) 图结构的有效性：为了评估在指导图卷积中结合物理结构先验的有效性，我们使用了不同的邻接矩阵设计进行实验，包括无连接（空图）、环形节点连接（表示与物理结构无关的错误链接）和完全连接的图。如表4所示，结合我们提出的结构先验的图卷积方法显著优于所有其他设计。这突显了结合航天器结构先验对姿态估计精度的积极影响。

表4. 不同图结构的性能比较
| 图结构 | ER(°) | ET(m) |
|--------|--------|
| 空图 | 8.03 | 340.77 |
| 环形 | 6.23 | 100.50 |
| 完全连接 | 2.42 | 330.19 |
| 提出方法 | 1.58 | 200.12 |

此外，完全连接的图也比空图取得了明显更好的性能，表明图卷积的全局信息聚合能力对姿态估计任务有益。在空图的情况下，由于没有定义邻居关系，节点是孤立的，无法交换信息，使得模型类似于多层感知器（MLP），从而导致最低的准确性。对于错误的图结构，误导性的连接会干扰信息的正确流动，降低性能。

4.7. 可视化结果
为了更直观地展示提出方法的优势，我们在SPEED+数据集上可视化了实验结果，如图7所示。可以看出，没有KSN模块的组（b）表现出更大的关键点检测误差和与真实值的明显偏差，导致姿态估计精度较低。得益于KSN模块中基于图卷积的全局迭代优化，组（c）、（d）和（e）实现了更高的关键点定位精度，从而提高了最终姿态估计的准确性。与组（c）中的PnP方法和组（d）中的WDR方法相比，组（e）中的提出方法展示了更优越的姿态估计精度。这表明KWAPM模块对航天器结构特征的权重感知以及DECA-GCN模块对全局结构特征的提取和预测的贡献，结合KSN的关键点细化，共同实现了高精度的姿态估计结果。

下载：下载高分辨率图片（899KB）
下载：下载全尺寸图片

图7. SPEED+数据集上的可视化比较结果：
(a) 真实值；
(b) ShuffleNet + BiFPN + DECA-GCN；
(c) ShuffleNet + BiFPN + KWAPM + KSN + PnP；
(d) WDR；
(e) 提出方法（前三行显示深空背景的图像，最后两行显示地球背景的图像）。

4.8. 异常值分析
由于提出的方法基于全局特征的提取和建模，它天生具有减轻局部异常值影响的能力。理论上，全局特征通过聚合来自多个关键点的线索来编码高层上下文信息，使网络即使在某些局部观测不可靠或错误的情况下也能保持姿态估计的稳定性。此外，我们的KWAPM在提高鲁棒性方面起着关键作用。通过根据置信度和关系线索为每个关键点分配自适应权重，KWAPM使网络能够降低不可靠关键点的权重，并强调更可信关键点的贡献。这种自适应加权机制确保异常值对最终姿态回归的影响最小。在现实世界的成像条件下，尤其是在基于空间的场景中，诸如照明不良、极端的亮度对比度或部分遮挡等问题通常会导致关键点可见度降低或局部特征误导。在这种情况下，传统的关键点检测方法可能会产生不准确的结果，当这些结果输入到基于PnP的姿态求解器中时，可能会导致旋转和平移估计出现显著错误。

为了评估提出方法对这种异常值的鲁棒性，我们对包含KSN和KWAPM模块的完整配置模型与直接使用检测到的2D关键点的基线模型进行了比较分析。两种方法的误差分布分别在图8中展示。从比较中可以看出，提出方法不仅获得了更高的整体准确性，而且对异常值的鲁棒性也更强。具体来说，在基线PnP方法（图8(a)-(b)）中，有大约4.9%的测试样本的角误差超过15°，1.0%的样本的位置误差超过1米。这些由异常值引起的故障突显了PnP求解器的脆弱性。相比之下，提出方法（图8(c)-(d)显著减少了这些 large errors：只有0.8%的样本的角误差超过15°，0.08%的样本的位置误差超过1米。此外，整个分布变得更加清晰和集中，靠近较低的误差区间，表明准确性和稳定性都有了一致的提高。这些定量证据强烈验证了全局特征建模和自适应关键点加权策略在处理噪声输入时的有效性。因此，提出方法在存在遮挡、噪声或光照退化的现实世界条件下提供了更稳健的解决方案。

下载：下载高分辨率图片（347KB）
下载：下载全尺寸图片

图8. 整个测试集中角误差和位置误差的分布。

4.9. 嵌入式设备上的运行时评估
为了评估提出方法在现实世界场景中的实际效率，该算法在Jetson AGX ORIN板上进行了部署。部分模型参数从单精度（FP32）转换为半精度（FP16）以减少计算延迟。我们在SPEED数据集上进行了超过1000次重复推理迭代，以测量平均推理时间。如表5[47]、[62]、[63]所示，提出方法实现了高姿态估计精度（角误差：1.58°，平移误差：0.13米），同时显著将推理时间减少到68.3毫秒，对应的帧率为14.6 Hz。

表5. 嵌入式设备上的性能比较
| 研究者 | ER(°) | ET(m) | 推理时间（毫秒） | 频率（Hz） |
|--------|--------|-----------|----------|
| Black等人 | 62 | 3.22 | 20.9 | 315.6.6 |
| WDR | 47 | 1.83 | 0.13 | 120.18.3 |
| Wang等人 | 63 | 0.40 | 0.01 | 142.9 |
| 提出方法 | 1.58 | 0.13 | 68.3 | 14.6 |

尽管提出的方法精度低于Wang等人的方法[63]，但在实时性能上提高了两倍以上，这对于在轨（星载）应用特别有价值。在在轨服务任务中，实现更高的实时情境感知使机械臂能够接收更精确和即时的状态信息，从而确保任务的准确执行。此外，对于涉及快速旋转的故障卫星的常见场景，高实时姿态估计允许系统迅速推断目标当前姿态，防止由于推理延迟导致的抓取错误。此外，提出方法获得的精度仍然具有很强的竞争力，超过了所有其他方法，并完全满足了在轨应用的要求。虽然我们模型中的参数总数比Black等人[62]和Wang等人[63]的模型更多，但由于预测头仅处理有限数量关键点的低维输入，计算成本仍然较低。同时，主干网络集成了轻量级的ShuffleNet和BiFPN结构，其中深度可分离卷积大大降低了计算负载。因此，提出的架构在保持高估计精度的同时显著减少了端到端推理延迟，实现了结构性高效的设计。

此外，我们还在不同的功耗限制下评估了全精度模型和FP16版本——其中部分网络层转换为半精度——如表6所示。在最低功耗模式（P = 15 W）下，全精度和FP16模型的每帧推理时间分别为298.7毫秒和172.1毫秒。在最高功耗模式下，这些时间进一步减少到127.8毫秒和68.3毫秒，实现了14.6 Hz的最大推理频率，满足了实际姿态估计应用的实时要求。

表6. Jetson AGX Orin上不同功耗模式下完整模型和FP16推理模型的推理性能
| 硬件配置（功率） | 完整模型 | 完整模型（FP16推理） |
|-------------|-----------|----------------|
| 时间（毫秒） | ER(°) | ET(m) | 时间（毫秒） | ER(°) | ET(m) |
| 15W | 298.7 | 1.58 | 200.12 | 96 |
| 30W | 172.1 | 1.58 | 30.13 | 07 |
| 50W | 175.1 | 95.0 | 50 |
| MAXN | 127.8 | 68.3 |

此外，尽管使用FP16精度导致模型参数的数值精度略有损失，但最终的姿态估计精度几乎没有受到影响。具体来说，在将某些参数的精度降低到半精度（FP16）后，角误差仅增加了0.08%，平移误差仅增加了0.85%。这种鲁棒性主要归功于网络设计，其中批量归一化和激活层的引入有效地限制了特征值的范围。此外，由于热图回归和SoftArgmax输出依赖于相对概率分布而不是绝对数值，网络对量化误差的敏感性较低，即使在降低精度的推理下也能保证稳定和准确的预测。

5. 结论
在本文中，我们提出了一种基于图卷积网络的端到端航天器姿态估计网络。核心思想是将航天器的强结构先验明确纳入学习过程中。为此，我们设计了三个专用模块——KWAPM、KSN和DECA-GCN，并得出以下结论：(1) KWAPM中的相关性编码和注意力机制有效地减少了异常关键点对姿态估计的影响。(2) KSN隐式地模拟了关键点之间的几何关系，显著提高了关键点定位的准确性。(3) DECA-GCN结合了航天器的物理结构先验，同时消除了对传统PnP求解器的依赖，实现了高效且高精度的姿态估计。我们的网络比现有方法具有更高的准确性和更快的推理速度。在边缘计算设备上的实验进一步证明，所提出的方法大幅降低了推理延迟，其处理速度是现有最快方法的两倍多，同时保持了相当的准确性。这些结果证实，所提出的全局约束图卷积架构兼具高计算效率和精确的姿态估计能力，使其特别适合用于航天器上的应用。

**CRediT作者贡献声明：**
- 白光辉（Guangzhen Bao）：撰写、审稿与编辑、监督、概念化。
- 胡建明（Jianming Hu）：研究、资金获取、数据管理。
- 王心凯（Xinkai Wang）：可视化、验证。
- 彭金楠（Jinnan Gong）：方法论、概念化。
- 江世凯（Shikai Jiang）：验证。
- 穆永琦（Yongqi Mu）：撰写、审稿与编辑、原始稿撰写、验证、软件开发、方法论。
- 志向阳（Xiyang Zhi）：研究、概念化。

热点排行