利用Mask R-CNN进行高级海洋数据分析与水下物体检测，以实现对生态系统的监测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Sustainable Computing: Informatics and Systems》：Advanced Marine Data Analytics and Underwater Object Detection Using Mask R-CNN For Ecosystem Monitoring

【字体：大中小】 时间：2026年03月26日 来源：Sustainable Computing: Informatics and Systems 3.8

编辑推荐：

　　水下目标检测与分割模型研究基于Mask R-CNN和VGG-16特征提取，通过数据增强和预处理优化提升低可视环境下的检测精度，在638张标注图像（七类海洋生物）中实现99.22%准确率，为海洋生态监测提供高效解决方案。

海瑟姆·A·马哈茂德（Haitham A. Mahmoud）| 艾哈迈德·T·索利曼（Ahmed T. Soliman）| 穆罕默德·埃尔-梅利吉（Mohammed El-Meligy）| 阿扎尔·伊姆兰（Azhar Imran）| 阿卜杜拉蒂·埃德里斯·阿卜杜勒加瓦德（Abdelaty Edrees Abdelgawad）

沙特阿拉伯利雅得国王沙特大学工程学院工业工程系，邮编12372

摘要

水下物体检测（UOD）是水下科学和保护领域的一项具有挑战性的任务，因为水下环境的能见度较低且背景复杂。本研究旨在基于Mask R-CNN和VGG-16特征框架，构建一个高性能的水下物体检测与分割模型，特别是针对水下动物的检测。所提出的策略采用深度学习（DL）技术进行物体检测和分割，包括预处理（如对比度增强和噪声降低）以及训练过程中的数据增强，以优化模型性能。该模型使用包含638张标记的水下图像的数据集进行评估，这些图像涵盖了海鹦、鲨鱼、水母、企鹅、海星、黄貂鱼和鱼类等七类海洋生物。实验结果显示，该模型的准确率为99.22%，精确率为98.14%，召回率为98.67%，F1分数为98.32%，表明其在水下物体检测和分类方面具有出色的性能。混淆矩阵也显示出模型在减少误分类方面的能力，正确预测的比例很高。这些发现证实了Mask R-CNN在水下物体检测中的有效性，特别是在实时应用中，因此它成为监测和保护海洋生态系统的理想工具。

引言

海洋生态系统孕育了众多对全球生态系统至关重要的物种，维持着地球的生物多样性和气候调节[1]。然而，海洋生态系统正受到过度捕捞、污染和全球变暖等威胁[2]。传统的海洋监测方法（如传感器网络和人工调查）在可扩展性、精确性和效率方面存在局限性，尤其是在偏远的水下环境中[3]。深度学习模型，尤其是Mask R-CNN，能够实现高效的水下物体检测与分割[4]。该模型不仅能检测物体，还能提供像素级的详细分割结果，从而为海洋野生动物和水下物体的自动化分类与监测提供高质量解决方案，改善现有方法的局限性[5]。

海洋生态系统的退化主要由人类活动引起，包括污染、气候变化、栖息地丧失和海洋资源的过度开发[6]。这些活动导致海洋温度升高、酸化以及海洋生物多样性的丧失。传统的海洋生物研究和保护方法往往无法有效应对这些复杂的多方面挑战[7]。随着大规模水下图像数据集的增多和深度学习技术的进步，Mask R-CNN实现了对水生生态系统的自动化监测[8]。这些进步使得能够实时分析海洋数据，从而更准确地评估各种环境威胁对海洋栖息地和生物的影响[9]。

尽管可以使用Mask R-CNN等深度学习模型进行海洋物体检测，但在实际应用中仍面临诸多挑战[10]。主要问题是，训练模型需要大量且异构的标记数据，因为水下环境的图像通常具有噪声、光线不足和能见度多变的特点。此外，从大量数据中训练模型计算成本较高，需要高性能硬件和较长的训练时间[11]。尽管Mask R-CNN具有很强的鲁棒性，但在物体遮挡严重或水况变化剧烈的水下环境中，其检测和分割效果可能较差[12]。为了解决这些问题，研究人员正在不断调整模型参数以提高其在实际应用中的稳定性[13]。

为了解决这些问题，可以采取一些措施。首先，通过数据增强技术人为增加数据集的多样性，以提高模型对其他水下环境的泛化能力。其次，迁移学习可以有效地将预训练模型应用于类似的数据集，从而减少训练所需的时间和计算资源。将Mask R-CNN与注意力机制或多尺度网络等现有方法结合使用，可以增强模型在复杂或动态场景下的稳定性。定期使用新的高质量水下图像更新模型，也有助于提高模型的准确性和适应能力。这些改进将确保Mask R-CNN能够为海洋生态系统监测提供高效、可扩展且稳定的解决方案。

•
我们提出了一个更新的无监督UOD框架，将Mask R-CNN与VGG-16结合用于特征提取，从而在能见度较低的情况下有效检测和分割水下物体（如海洋动物）。
•
我们提供了包含不同类别海洋生物的标记水下图像数据集，并通过对比度调整、CLAHE（对比度受限自适应直方图均衡化）、噪声清除和中值滤波等方法对数据进行了预处理，为模型训练提供了干净的数据输入。
•
该模型能够以高精度、高召回率和F1分数准确识别水下物体，在UOD任务中表现优异。混淆矩阵进一步证明了模型的高准确性，减少了误分类情况。
•
该模型可用于实时检测和分割水下物体，以监测海洋生态系统、保护物种。
•
通过增加数据多样性，数据增强技术不仅提高了模型的鲁棒性，还使其能够更好地应对实际场景，使其在各种水下环境中都能发挥最佳性能。

参考文献

文献综述

（谢凯等，2022年）指出，多波束前视声纳（MFLS）在水下物体检测中至关重要，但其应用受到数据集规模小和声纳图像像素级处理等挑战的限制。为克服这些问题，我们引入了UATD数据集，该数据集包含用Tritech Gemini 1200ik声纳拍摄的9000多张MFLS图像，涵盖了包括立方体和圆柱体在内的10类目标物体。这些图像来自浅水区和湖泊。

提出的方法

所提出的UOD方法包括一系列步骤，首先使用CLAHE（对比度受限自适应直方图均衡化）进行对比度提升和中等值滤波器去除噪声，以改善图像质量。随后，VGG-16模型作为基础提取图像特征图。区域提议网络（RPN）用于生成候选区域。

结果与讨论

根据各项关键性能指标，使用Mask R-CNN的UOD模型表现出色。即使在能见度低和背景复杂的条件下，该模型也能有效检测和分类不同种类的水下物体。通过混淆矩阵的评估显示，该模型在处理复杂水下物体时几乎没有误分类现象。数据增强过程中使用VGG-16作为特征提取框架，进一步提升了模型的性能。

结论

本研究提出了一个基于Mask R-CNN和VGG-16的高性能水下物体检测模型。通过在特征提取过程中应用数据增强技术，提高了模型对水下低能见度和复杂背景的适应能力。该模型应用于包含638张标记水下图像的数据集，这些图像涵盖了鱼类、水母、鲨鱼等七类海洋生物，显示出良好的准确率。

利益冲突

作者们之间不存在任何利益冲突。

作者贡献

海瑟姆·A·马哈茂德负责设计框架、分析模型性能、验证结果并撰写论文。

代码可用性

不适用。

资金支持

作者未获得任何资金支持。

作者声明

作者确认本手稿为原创作品，未在其他任何地方发表。所有作者都对使用Mask R-CNN进行水下物体检测的研究的构思、设计、执行和解释做出了实质性贡献。具体贡献如下：•

概念与方法论：作者共同设计了研究方案，明确了水下物体检测中的挑战，并选择了带有掩码损失和边界框的Mask R-CNN框架。

CRediT作者贡献声明

艾哈迈德·T·索利曼（Ahmed T. Soliman）：负责概念设计。海瑟姆·A·马哈茂德（Mahmoud Haitham A）：负责撰写初稿。阿卜杜拉蒂·埃德里斯·阿卜杜勒加瓦德（Abdelaty Edrees Abdelgawad）：负责监督工作。阿扎尔·伊姆兰（Azhar Imran）：负责资源协调。穆罕默德·埃尔-梅利吉（Mohammed El-Meligy）：负责数据管理。

利益冲突声明

作者之间不存在利益冲突。

联系信箱：

粤ICP备09063491号

摘要

引言