异构多尺度增强YOLOv8算法：用于无人水面航行器上的实时海上障碍物检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Heterogeneous Multi-Scale Enhanced YOLOv8 for Real-Time Maritime Obstacle Detection on Unmanned Surface Vessels

【字体：大中小】 时间：2026年03月31日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　环境感知是无人船自主导航的关键，但实时高精度障碍检测仍面临挑战。本文提出YOLO-HMS模型，通过异构多尺度块（HMSB）融合不同卷积核特征，增强小目标检测；结合语义流引导上采样（SFGU）优化多尺度特征对齐，解决海洋环境动态干扰和尺度变化问题。实验表明，模型在WSODD和ShipData数据集上mAP50达81.1%和67.5%，并通过实际无人船平台验证实时性。

吴润兵|崔亚妮|胡子健|任佳|张宇|李波

海南大学信息与通信工程学院，海口市，570228，海南，中国

摘要

环境感知对于无人水面船只（USVs）的自主导航至关重要。然而，在实时约束下实现高精度障碍物检测仍然是资源有限的USVs面临的主要挑战。为了解决这个问题，我们提出了YOLO-HMS这一新型检测模型，该模型在不牺牲推理速度的情况下提高了检测精度，从而能够在复杂的海洋环境中实现可靠和高效的自主导航。所提出的方法引入了一种异构多尺度块（HMSB），该块利用通道划分和不同核大小的并行卷积来平衡局部细节提取和全局语义理解，从而提高了多尺度检测能力。此外，还开发了一种基于语义流的上采样（SFGU）方法，以确保不同分辨率特征图之间的语义一致性，确保深度表示和高分辨率表示之间的精确结构对齐。这种设计有效地提升了检测的鲁棒性和对水面不同物体大小的适应性。大量实验表明，该模型在WSODD数据集上的mAP₅₀和mAP_{50: 95}分别为81.1%和47.4%，在ShipData数据集上分别为67.5%和46.4%。此外，实际测试验证了该模型满足自主USV导航的实时环境感知要求，证明了其有效性和实用性。代码可在https://github.com/yileicc/yolo-hms.git获取。

引言

随着对海洋探索、资源开发和国家安全需求的增长，无人水面船只（USVs）已成为智能海洋系统的重要组成部分（Tian, Li, Liao, Cao, 2024; Zhang, Ren, Cui, Fu, Cong, 2024）。它们能够在高风险或重复性任务中替代人类操作员，例如海洋测绘（Hasan et al., 2024）、环境监测（Kuru, Clough, Ansell, McCarthy, McGovern, 2023; Lu, Zhao, Fu, Yeatman, Ding, Chen, 2024）和海洋检查（Ennong et al., 2024），从而显著提高运营效率，同时降低成本和安全风险。然而，尽管它们的应用范围不断扩大，但在非结构化和动态的海洋环境中实现完全自主导航仍然是一个持续的挑战。静态障碍物（如浮标、暗礁）和动态障碍物（如船只、波浪）的共存，加上不断变化的照明和海况，给可靠的环境感知带来了巨大困难。因此，能够进行实时和鲁棒的障碍物检测与识别已成为USVs智能决策和安全导航的基本前提（Jiang, Li, Zheng, 2025; Yang, Shao, Liu, Xiang, Zhang, 2025）。

近年来，基于视觉的对象检测已经从辅助技术发展成为与主动传感器（如LiDAR（Ma, Hua, & Kong, Yao, Guan, Wu, Ni, Huang, Liu, Yue, Ding, Lim, Seo, et al., 2024）和毫米波雷达（Fan, Liu, Wei, He, Chen, 2025; Wang, Wu, Liu, 2025）并行的主流解决方案，用于无人系统的环境感知。虽然主动传感器提供了可靠的深度信息，但它们通常受到空间分辨率和成本的限制（Xu et al., 2024），从而限制了对场景的精细理解。相比之下，RGB相机成本低廉、信息丰富且易于部署，为精确的障碍物检测提供了必要的密集视觉线索。随着深度学习的快速发展，基于视觉的感知已经取得了显著的准确性和鲁棒性，成为自主导航不可或缺的部分。

现有的基于深度学习的对象检测方法大致可以分为两阶段和一阶段框架。两阶段检测器，如R-CNN（Girshick, Donahue, Darrell, & Malik, 2015）和Faster R-CNN（Ren, He, Girshick, & Sun, 2016），首先生成区域提议，然后进行分类和边界框回归。然而，这种多步骤过程可能导致空间细节的损失，并影响实时性能。相比之下，一阶段检测器，包括YOLO（Redmon, Divvala, Girshick, & Farhadi, 2016）、RetinaNet（Lin, Goyal, Girshick, He, & Dollár, 2017b）和SSD（Liu et al., 2016），将检测问题表述为单一回归问题，实现了高推理速度，但往往以牺牲定位精度为代价。最近，基于Transformer的检测器，如DETR（Carion et al., 2020）和Deformable DETR（Zhu et al., 2020），表现出强大的性能，但它们通常需要更高的计算资源和更长的训练时间，限制了其在资源受限的船载平台上的应用。

USV的自主障碍物避让是一个闭环专家决策过程，依赖于感知模块为下游的风险评估和路径规划提供结构化的环境信息。为了确保实时的环境感知，这些系统必须连续处理高帧率视频流，在此过程中过长的推理延迟可能会影响系统的响应能力和导航安全性。因此，在基于视觉的海洋感知中实现检测精度和计算效率之间的最佳平衡仍然是一个关键挑战（Bovcon and Kristan, 2021; Gao et al., 2024）。然而，现有的检测框架在直接应用于海面目标检测时仍面临领域特定的限制，如图1所示：(a) 目标规模的变化很大。在开阔水域，远处的船只或浮标在图像中通常只占据几个像素，使得其特征较弱，容易被复杂的背景噪声掩盖，从而导致漏检。(b) 易受环境干扰。视觉检测性能受到自然环境条件的影响很大。波浪、镜面反射、海雾和雨水等因素会降低图像质量，减少对比度，并显著增加误报。(c) 实时处理要求。自主障碍物避让作为一个闭环控制系统，必须处理高帧率视频流。过长的推理延迟可能会影响系统的响应能力和安全性。因此，在基于视觉的海洋感知中实现检测精度和计算效率之间的最佳平衡仍然是一个关键的研究挑战（Bovcon, Kristan, 2021, Gao, Geng, Zhang, Wang, Shao, 2024）。

为了平衡检测精度和实时性能，近年来探索了多种方法。例如，Chen, Liu, & Achuthan（2021）通过使用轻量级的骨干网络Xception来加速推理，并在编码器中重用多分辨率特征，开发了WODIS。然而，这种设计不可避免地增加了浮点运算次数（FLOPs）和参数数量，限制了其在实际海洋应用中的部署效率。同样，Cheng, Zhu, & Wu（2023）用ConvNext替换了原始的C3块，构建了YOLOV5-ODConvNext，虽然提高了检测速度，但在一定程度上牺牲了精度。Shao等人（2024）通过扩展可变形卷积和引入自定义注意力机制增强了骨干网络的建模能力，并进一步提出了一种优化的模型量化策略，以减轻由于船上资源有限而导致的低效率。此外，Yang等人（2024）提出了一种使用深度卷积神经网络（DCNN）和混合注意力机制的轻量级检测-分割框架。通过共享特征提取骨干，他们的方法在实地实验中显示出能够满足导航通道中慢速移动船只的感知需求。

虽然这些方法在一定程度上提高了计算效率，但大多数现有的检测框架在海洋场景中仍然采用同质的多尺度特征聚合策略。传统的多分支卷积模块主要通过并行卷积核设计来扩展感受野，不同尺度特征之间的差异通常主要源于网络路径深度的变化，而不是空间操作符本身的异质性。此外，特征金字塔结构通常依赖于空间对齐或简单的插值策略来实现跨尺度特征交互。这些方法隐含地假设不同尺度的特征在语义上是兼容的，因此可以直接融合，忽略了尺度依赖的语义差异。然而，在复杂的海洋环境中，不同空间尺度提取的特征通常具有不同粒度的语义信息。大尺度特征主要编码全局上下文信息，如海天边界和整体背景布局，这对于抑制大面积背景干扰至关重要。相比之下，小尺度特征更关注局部纹理和边缘细节，这对于保持目标边界完整性和检测小型或远距离海洋目标特别重要。固有的尺度依赖性语义差异表明，直接融合多尺度特征并不是最佳解决方案。因此，传统的融合策略往往引入跨尺度语义冲突，导致在复杂海洋干扰条件下判别信息的减弱。

基于这一见解，本文提出了一种异构多尺度增强的YOLOv8（YOLO-HMS），这是一种专门为USV上的实时障碍物检测量身定制的检测框架。具体来说，多尺度特征提取被建模为一个尺度感知过程，通过通道分组在基本块内实现多尺度表示，利用不同的卷积核。此外，特征融合被建模为一个语义一致性传播过程，在上采样和融合过程中保持结构一致性。所提出的模型结合了YOLOv8的优势和适应USV图像特征的异构多尺度设计，在自主导航场景中实现了高检测精度和实时性能。

总结来说，本研究的主要贡献如下：

•

提出了一种异构多尺度块（HMSB），其中将不同大小的卷积核纳入并行通道分支中，以平衡细粒度特征提取和全局语义建模，从而在与传统多分支卷积模块相比时提高了多个目标尺度的检测性能。

•

还提出了一种基于语义流的上采样（SFGU）方法，该方法利用从光流中获得的像素运动信息来建模多分辨率特征图之间的空间和语义对应关系，从而在最小化信息损失的同时实现高效的语义传输，与基于空间对齐的方法相比。

•

在具有挑战性的海洋光学数据集上的广泛实验表明，所提出的模型显著提高了表面障碍物检测性能，在WSODD数据集上的mAP_0.5为81.1%，在ShipData数据集上为67.5%。

•

该模型在实验室开发的自主USV平台（#Linghang 1）上进一步得到了验证，证明了其在实际导航条件下的强大鲁棒性、可靠性和实时性能。

本文的其余部分组织如下。第2节提供了相关文献的概述。第3节解释了所提出方法的工作原理。第4节分析和讨论了所提出的海面对象检测模型的实验结果。最后，第5节总结了关键结论和研究前景。

提出的方法

所提出模块的设计是基于第1节讨论的海洋感知特性。光学图像受到天气和照明的影响，使得在复杂海洋环境中的障碍物检测极具挑战性。为了提高USVs的感知能力并确保实时性能，本研究提出了一种基于YOLOv8框架的海洋光学数据集的表面障碍物检测方法。以下部分详细介绍了设计

实验验证

为了验证所提出方法的有效性，在海洋光学数据集上进行了大量实验。本节首先介绍了数据集、评估指标和实验设置，然后与最先进的方法进行了比较分析，并对关键组件进行了消融研究。最后，在真实的船载平台上验证了该方法的性能。

结论

在本文中，我们提出了一种高精度和实时的障碍物检测模型，专为海洋环境量身定制，以增强USVs的环境感知能力。该模型包含两个关键组件：异构多尺度块（HMSB）和基于语义流的上采样（SFGU）。HMSB通过多尺度卷积分支有效捕获了局部细节和全局语义信息，而SFGU确保了

CRediT作者贡献声明

吴润兵：概念化、方法论、撰写——原始草稿准备。

崔亚妮：软件、实验、资金获取。

胡子健：撰写——审阅与编辑、验证、数据整理。

任佳：资金获取、监督。

张宇：数据整理、验证。

李波：监督、撰写——审阅与编辑。

利益冲突声明

本手稿尚未在其他地方部分或全部发表，也没有被其他期刊考虑。我们已阅读并理解了您期刊的政策，并相信该手稿或研究没有违反任何这些政策。作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

提出的方法

实验验证

结论

CRediT作者贡献声明

利益冲突声明

热点排行