《Mathematics》:A Lightweight Improved RT-DETR for Stereo-Vision-Based Excavator Posture Recognition
Yunlong Hou,
Ke Wu,
Yuhan Zhang,
Mengying Zhou,
Jiasheng Lu and
Zhao Zhang
编辑推荐:
在智能挖掘机应用中,传统挖掘机位姿识别方法面临两大挑战:识别精度有限以及边缘设备计算资源不足。为解决这些问题,本研究提出了一种基于改进实时检测变换器(Real-Time Detection Transformer, RT-DETR)的挖掘机位姿识别方法。首先,
在智能挖掘机应用中,传统挖掘机位姿识别方法面临两大挑战:识别精度有限以及边缘设备计算资源不足。为解决这些问题,本研究提出了一种基于改进实时检测变换器(Real-Time Detection Transformer, RT-DETR)的挖掘机位姿识别方法。首先,基于重参数化视觉变换器(Reparameterized Vision Transformer, RepViT)设计了一种新型骨干网络,以提高特征利用效率并降低计算需求。其次,通过引入轻量动态上采样器(Dynamic Upsamplers)优化整体架构,减少上采样过程中的信息损失并增强多尺度特征融合。此外,采用交叉注意力融合模块(Cross-Attention Fusion Module, CAFM)以加强局部特征提取,同时保留变换器(Transformer)的全局建模能力,从而提高前景与背景的区分度。最后,引入多尺度融合网络(Multi-Scale Fusion Network, MSFN)以进一步增强RT-DETR的多尺度特征表征能力。实验结果表明,所提方法在小目标检测方面取得了94.29%的平均精度均值(mean Average Precision, mAP),较基线RT-DETR提高了7.96%,同时模型参数量减少了34.95%。与YOLO系列模型相比,所提方法的mAP提高了8.62%至12.75%。这些结果表明,所提方法在检测精度和计算效率方面均优于现有方法,为实时挖掘机位姿识别提供了一种高效可行的解决方案。
## 一、研究背景与问题提出
液压挖掘机因其高效率、多功能性和稳健性能而广泛应用于采矿、林业、建筑等诸多领域。然而,施工现场往往环境恶劣、工况危险,事故可能导致工人严重受伤和重大财产损失。因此,近二十年来,研究人员对智能挖掘机的兴趣日益增长。实现挖掘机智能化的关键在于高精度的姿态感知技术。目前,姿态测量系统主要沿两条技术路线发展:接触式测量方法与非接触式测量方法。
接触式测量依赖于嵌入式传感器网络,例如利用动态倾角仪实时采集动臂俯仰角,或将磁致伸缩位移传感器集成到液压缸中以获取斗杆的运动参数。尽管这种基于物理接触的测量方法具有直接测量的理论优势,但在实际工程应用中存在显著的技术局限。具体而言,传感器易受挖掘机非线性液压冲击和复合运动引起的高频振动影响,导致信号采集系统引入时变噪声。此外,机械结构的固有限制导致测量误差累积,严重影响系统稳定性。虽然传统接触式传感器方法可通过被动减振结构在特定场景中缓解振动和冲击的影响,但在复杂施工环境中仍难以避免测量性能退化和设备损坏风险。
相比之下,基于计算机视觉的非接触式测量方法展现出更强的鲁棒性和适应性。这些方法可在无物理接触的情况下实现高精度姿态估计,有效避免振动和环境干扰的影响,且无需复杂的传感器部署和维护,从而降低整体硬件成本和系统故障率。机器视觉系统还能提供长期连续监测,特别适用于高风险和恶劣环境中的施工任务。
已有研究基于YOLOv5模型进行挖掘机姿态估计,实现了挖掘机姿态的自动识别,但由于卷积神经网络(Convolutional Neural Network, CNN)的局部感受野有限,模型精度仍显不足。此外,由于模型依赖非极大值抑制(Non-Maximum Suppression, NMS)进行后处理,其计算复杂度较高,难以在边缘设备上部署。另有研究人员采用轻量全卷积网络(Fully Convolutional Network, FCN)进行挖掘机位姿识别,虽然有效降低了对计算资源的需求,但精度不足的问题依然存在。
为有效解决现有方法位姿识别误差大、计算需求高的问题,并进一步提升挖掘机的智能化和安全性能,本研究引入RT-DETR目标检测算法并结合立体视觉进行液压挖掘机位姿识别。此外,本研究对RT-DETR算法进行了结构优化和改进,以在小目标检测方面获得更好性能的同时降低设备的计算负担,从而为工程应用提供更高效、更可行的解决方案。
## 二、主要技术方法
本研究建立了一套完整的技术流程,包含编码标记检测、基于双目视觉的三维坐标恢复、世界坐标变换和位姿角几何求解。研究人员采用ZED2i立体相机采集图像数据,数据集包含从30个视频序列中提取的45,391张标注图像,涵盖7个编码标记类别。数据集按视频序列级别划分,训练集、验证集和测试集分别包含36,313张、4,539张和4,539张原始图像。
在模型架构方面,研究人员以RT-DETR为基线模型,进行了四项核心改进:(1)引入RepViT替代原始ResNet骨干网络,通过解耦令牌混合器与通道混合器降低计算复杂度;(2)采用DySample动态上采样算子替代双线性插值,使采样位置自适应学习,减少信息损失;(3)设计CAFM模块,融合卷积的局部细节建模能力与注意力机制的全局上下文建模能力;(4)设计MSFN模块,通过空洞卷积、深度可分离卷积和门控融合机制增强多尺度特征表征。
## 三、研究结果
### 3.1 模型综合对比实验
研究人员将改进后的模型与YOLO系列模型、DETR系列模型及全卷积网络进行了对比实验。结果表明,所提方法在所有对比模型中取得了最佳综合性能。在检测精度方面,所提方法的召回率(Recall)达到93.57%,mAP达到94.29%,均高于所有对比模型。与基线RT-DETR相比,召回率和mAP分别提升了5.38%和7.96%。与YOLOv5m相比,所提方法的召回率和mAP分别提升了8.34%和9.73%。在计算效率方面,所提模型仅含18.8M参数量,少于表2中所有其他对比模型,表明所提方法在检测精度与模型复杂度之间实现了更好的平衡。
### 3.2 骨干网络替换对比实验
为验证使用RepViT的合理性,研究人员对比了RepViT、EfficientViT和StarNet等轻量骨干网络。结果表明,引入RepViT后模型mAP提升了2.45%,StarNet则提升了1.87%。在所有对比骨干中,RepViT的mAP提升最大。虽然StarNet的mAP提升接近RepViT,但其参数量比RepViT多2.7M。综合考虑性能和参数效率,最终选择RepViT作为RT-DETR的骨干网络。
### 3.3 上采样算子对比实验
为更好地利用多尺度特征,研究人员用动态上采样算子替代了RT-DETR中的双线性插值。结果表明,引入不同上采样算子后模型mAP均有显著提升。具体而言,用DySample替代双线性插值使mAP提升了2.25%,转置卷积则提升了2.13%。虽然转置卷积的mAP提升接近DySample,但DySample获得了最大的整体性能增益,同时比SAPA少1.5M参数。综合考虑性能提升和参数效率,最终选择DySample作为最优上采样算子。
### 3.4 消融实验
研究人员基于基线RT-DETR模型进行了消融实验,验证了各项改进策略的有效性。结果表明:将RT-DETR的骨干替换为RepViT后,平均mAP从86.41%提升至88.86%(提升2.45%),参数量从28.9M降至14.2M,计算复杂度从96.8 GFLOPs降至55.4 GFLOPs,确认RepViT是轻量化的主要来源。在此基础上,用DySample替代双线性插值进一步使平均mAP提升2.25%,仅增加1.1M参数和2.7 GFLOPs,表明其具有良好的精度-复杂度权衡。引入CAFM后,平均mAP进一步提升1.87%,参数量和计算复杂度分别适度增加1.6M和6.6 GFLOPs。最后,将FFN替换为MSFN后,平均mAP进一步提升1.38%,额外开销为1.9M参数和7.6 GFLOPs。此外,三次独立运行中mAP的标准差从0.22降至0.12,表明改进带来的增益是稳定的。
### 3.5 边缘部署评估
为评估所提方法在资源受限场景中的部署能力,研究人员在NVIDIA Jetson Orin NX 8GB平台进行了额外实验。在TensorRT FP16推理、输入尺寸320×320条件下,YOLOv11m实现了最低推理延迟22ms(45 FPS),而所提方法的延迟为29ms(34 FPS),仅略高于轻量YOLO模型,同时使用了最少的参数量(仅18.8M)。相比之下,基于Transformer的模型如DETR、Deformable-DETR和RT-DETR的延迟分别达到71ms、52ms和39ms。FocalNet-S的部署成本最高,延迟达105ms,峰值内存使用2.74GB。总体而言,所提方法在精度、延迟、FPS、参数量和内存使用之间取得了良好平衡,更适合资源受限的边缘场景部署。
### 3.6 位姿估计精度分析
为定量评估所提方法的最终位姿估计精度,研究人员将测试集上预测的动臂、斗杆和铲斗角度与接触传感器的同步测量值进行了对比。结果表明,所提方法的平均绝对误差(Mean Absolute Error, MAE)/均方根误差(Root Mean Square Error, RMSE)分别为:动臂1.18°/1.56°、斗杆1.43°/1.87°、铲斗2.06°/2.71°。时间序列对比显示,估计曲线与传感器测量曲线在整个运动过程中高度一致,表明所提方法能够准确跟踪挖掘机位姿角的动态变化。虽然在角度快速变化的几个时间点出现轻微偏差,但整体趋势与参考测量保持良好一致。
## 四、讨论与结论
本研究提出了一种基于改进RT-DETR的挖掘机位姿识别方法。通过引入基于RepViT的轻量骨干网络,在保持或略微提升检测精度的同时显著减少了模型参数量。DySample的使用增强了上采样过程中的特征融合并改善了复杂图像细节的表征。CAFM强化了全局与局部特征的联合建模,MSFN则进一步提升了模型的多尺度特征表征能力。最终,所提方法将mAP提升了7.96%,同时减少了34.95%的参数量,在精度和计算效率方面均展现出明显优势。
尽管所提方法在自然昼夜环境中表现出鲁棒性能,且当前数据集已包含挖掘机运动引起的适度形变、运动模糊和部分遮挡,但本研究未明确评估雨水、 Dense dust、严重逆光或标记损坏等更极端的恶劣现场条件。在这些条件下,编码标记的可见性和完整性可能下降,从而降低检测置信度并进一步影响后续的三维定位和位姿角估计。由于这些恶劣条件未在当前数据系统采样,留待未来研究。未来工作将构建更恶劣现场条件下的专用数据集,并研究时序融合等鲁棒性增强策略。挖掘机铲斗角度识别的改进对于提升工程机械的操作精度和安全性具有实际意义,所提方法为智能挖掘机系统的发展提供了有益支持,也为未来更高效可靠的施工设备研究提供了基础。