随着对海洋探索、资源开发和国家安全需求的增长,无人水面船只(USVs)已成为智能海洋系统的重要组成部分(Tian, Li, Liao, Cao, 2024; Zhang, Ren, Cui, Fu, Cong, 2024)。它们能够在高风险或重复性任务中替代人类操作员,例如海洋测绘(Hasan et al., 2024)、环境监测(Kuru, Clough, Ansell, McCarthy, McGovern, 2023; Lu, Zhao, Fu, Yeatman, Ding, Chen, 2024)和海洋检查(Ennong et al., 2024),从而显著提高运营效率,同时降低成本和安全风险。然而,尽管它们的应用范围不断扩大,但在非结构化和动态的海洋环境中实现完全自主导航仍然是一个持续的挑战。静态障碍物(如浮标、暗礁)和动态障碍物(如船只、波浪)的共存,加上不断变化的照明和海况,给可靠的环境感知带来了巨大困难。因此,能够进行实时和鲁棒的障碍物检测与识别已成为USVs智能决策和安全导航的基本前提(Jiang, Li, Zheng, 2025; Yang, Shao, Liu, Xiang, Zhang, 2025)。
近年来,基于视觉的对象检测已经从辅助技术发展成为与主动传感器(如LiDAR(Ma, Hua, & Kong, Yao, Guan, Wu, Ni, Huang, Liu, Yue, Ding, Lim, Seo, et al., 2024)和毫米波雷达(Fan, Liu, Wei, He, Chen, 2025; Wang, Wu, Liu, 2025)并行的主流解决方案,用于无人系统的环境感知。虽然主动传感器提供了可靠的深度信息,但它们通常受到空间分辨率和成本的限制(Xu et al., 2024),从而限制了对场景的精细理解。相比之下,RGB相机成本低廉、信息丰富且易于部署,为精确的障碍物检测提供了必要的密集视觉线索。随着深度学习的快速发展,基于视觉的感知已经取得了显著的准确性和鲁棒性,成为自主导航不可或缺的部分。
现有的基于深度学习的对象检测方法大致可以分为两阶段和一阶段框架。两阶段检测器,如R-CNN(Girshick, Donahue, Darrell, & Malik, 2015)和Faster R-CNN(Ren, He, Girshick, & Sun, 2016),首先生成区域提议,然后进行分类和边界框回归。然而,这种多步骤过程可能导致空间细节的损失,并影响实时性能。相比之下,一阶段检测器,包括YOLO(Redmon, Divvala, Girshick, & Farhadi, 2016)、RetinaNet(Lin, Goyal, Girshick, He, & Dollár, 2017b)和SSD(Liu et al., 2016),将检测问题表述为单一回归问题,实现了高推理速度,但往往以牺牲定位精度为代价。最近,基于Transformer的检测器,如DETR(Carion et al., 2020)和Deformable DETR(Zhu et al., 2020),表现出强大的性能,但它们通常需要更高的计算资源和更长的训练时间,限制了其在资源受限的船载平台上的应用。
USV的自主障碍物避让是一个闭环专家决策过程,依赖于感知模块为下游的风险评估和路径规划提供结构化的环境信息。为了确保实时的环境感知,这些系统必须连续处理高帧率视频流,在此过程中过长的推理延迟可能会影响系统的响应能力和导航安全性。因此,在基于视觉的海洋感知中实现检测精度和计算效率之间的最佳平衡仍然是一个关键挑战(Bovcon and Kristan, 2021; Gao et al., 2024)。然而,现有的检测框架在直接应用于海面目标检测时仍面临领域特定的限制,如图1所示:(a) 目标规模的变化很大。在开阔水域,远处的船只或浮标在图像中通常只占据几个像素,使得其特征较弱,容易被复杂的背景噪声掩盖,从而导致漏检。(b) 易受环境干扰。视觉检测性能受到自然环境条件的影响很大。波浪、镜面反射、海雾和雨水等因素会降低图像质量,减少对比度,并显著增加误报。(c) 实时处理要求。自主障碍物避让作为一个闭环控制系统,必须处理高帧率视频流。过长的推理延迟可能会影响系统的响应能力和安全性。因此,在基于视觉的海洋感知中实现检测精度和计算效率之间的最佳平衡仍然是一个关键的研究挑战(Bovcon, Kristan, 2021, Gao, Geng, Zhang, Wang, Shao, 2024)。
为了平衡检测精度和实时性能,近年来探索了多种方法。例如,Chen, Liu, & Achuthan(2021)通过使用轻量级的骨干网络Xception来加速推理,并在编码器中重用多分辨率特征,开发了WODIS。然而,这种设计不可避免地增加了浮点运算次数(FLOPs)和参数数量,限制了其在实际海洋应用中的部署效率。同样,Cheng, Zhu, & Wu(2023)用ConvNext替换了原始的C3块,构建了YOLOV5-ODConvNext,虽然提高了检测速度,但在一定程度上牺牲了精度。Shao等人(2024)通过扩展可变形卷积和引入自定义注意力机制增强了骨干网络的建模能力,并进一步提出了一种优化的模型量化策略,以减轻由于船上资源有限而导致的低效率。此外,Yang等人(2024)提出了一种使用深度卷积神经网络(DCNN)和混合注意力机制的轻量级检测-分割框架。通过共享特征提取骨干,他们的方法在实地实验中显示出能够满足导航通道中慢速移动船只的感知需求。
虽然这些方法在一定程度上提高了计算效率,但大多数现有的检测框架在海洋场景中仍然采用同质的多尺度特征聚合策略。传统的多分支卷积模块主要通过并行卷积核设计来扩展感受野,不同尺度特征之间的差异通常主要源于网络路径深度的变化,而不是空间操作符本身的异质性。此外,特征金字塔结构通常依赖于空间对齐或简单的插值策略来实现跨尺度特征交互。这些方法隐含地假设不同尺度的特征在语义上是兼容的,因此可以直接融合,忽略了尺度依赖的语义差异。然而,在复杂的海洋环境中,不同空间尺度提取的特征通常具有不同粒度的语义信息。大尺度特征主要编码全局上下文信息,如海天边界和整体背景布局,这对于抑制大面积背景干扰至关重要。相比之下,小尺度特征更关注局部纹理和边缘细节,这对于保持目标边界完整性和检测小型或远距离海洋目标特别重要。固有的尺度依赖性语义差异表明,直接融合多尺度特征并不是最佳解决方案。因此,传统的融合策略往往引入跨尺度语义冲突,导致在复杂海洋干扰条件下判别信息的减弱。
基于这一见解,本文提出了一种异构多尺度增强的YOLOv8(YOLO-HMS),这是一种专门为USV上的实时障碍物检测量身定制的检测框架。具体来说,多尺度特征提取被建模为一个尺度感知过程,通过通道分组在基本块内实现多尺度表示,利用不同的卷积核。此外,特征融合被建模为一个语义一致性传播过程,在上采样和融合过程中保持结构一致性。所提出的模型结合了YOLOv8的优势和适应USV图像特征的异构多尺度设计,在自主导航场景中实现了高检测精度和实时性能。
总结来说,本研究的主要贡献如下:
•提出了一种异构多尺度块(HMSB),其中将不同大小的卷积核纳入并行通道分支中,以平衡细粒度特征提取和全局语义建模,从而在与传统多分支卷积模块相比时提高了多个目标尺度的检测性能。
•还提出了一种基于语义流的上采样(SFGU)方法,该方法利用从光流中获得的像素运动信息来建模多分辨率特征图之间的空间和语义对应关系,从而在最小化信息损失的同时实现高效的语义传输,与基于空间对齐的方法相比。
•在具有挑战性的海洋光学数据集上的广泛实验表明,所提出的模型显著提高了表面障碍物检测性能,在WSODD数据集上的mAP0.5为81.1%,在ShipData数据集上为67.5%。
•该模型在实验室开发的自主USV平台(#Linghang 1)上进一步得到了验证,证明了其在实际导航条件下的强大鲁棒性、可靠性和实时性能。
本文的其余部分组织如下。第2节提供了相关文献的概述。第3节解释了所提出方法的工作原理。第4节分析和讨论了所提出的海面对象检测模型的实验结果。最后,第5节总结了关键结论和研究前景。