DCRAG-UNet：一种改进的语义分割框架，用于自动估计Litopenaeus vannamei（一种虾类）的生物量参数作者：Min Longlong 和 Chen Ming

《Applied Sciences》：DCRAG-UNet: An Enhanced Semantic Segmentation Framework for Automated Biomass Parameter Estimation of Litopenaeus vannamei Longlong Min and Ming Chen

【字体：大中小】 时间：2026年04月28日 来源：Applied Sciences 2.5

编辑推荐：

　　摘要为了应对Litopenaeus vannamei养殖中手工估算生物量所固有的低效率和高的误差率问题，本研究提出了一种基于改进的U-Net框架的高度复杂的自动化体系。我们提出了DCRAG-UNet模型，该模型整合了扩张卷积（Dilated Convolutions）来扩展感

　　摘要

为了应对Litopenaeus vannamei养殖中手工估算生物量所固有的低效率和高的误差率问题，本研究提出了一种基于改进的U-Net框架的高度复杂的自动化体系。我们提出了DCRAG-UNet模型，该模型整合了扩张卷积（Dilated Convolutions）来扩展感受野，并采用了残差混合注意力门（Residual-hybrid Attention Gate，简称RAG）来有效抑制水下噪声，同时增强边缘特征。该框架结合了形态学骨架提取算法和亚像素几何校正技术，以实现精确的身体长度测量，随后通过稳健的回归模型进行重量预测。实验结果表明，DCRAG-UNet的Dice系数达到了98.55%，mIoU达到了98.72%。此外，身体长度和重量估算的平均相对误差分别为1.12%和6.92%。这些发现验证了该模型在智能水产养殖环境中进行非侵入式生物量监测的可靠性和有效性。

1. 引言

Litopenaeus vannamee是一种经济上至关重要的物种，广泛分布于南美洲的热带和亚热带太平洋沿岸。由于其快速的生长速度、出色的环境适应能力和在多种养殖系统中的多功能性，它已成为全球虾类养殖的基石[1,2]。在高密度集约化养殖中，持续监测L. vannamee的生长对于精确喂养、主动疾病预防和确定最佳收获时间表至关重要[3,4,5]。特别是，高保真度和快速获取个体身体长度数据是高效生长管理的核心[5,6]。然而，当前行业中普遍采用的传统手工测量方法存在几个关键限制：处理过程会对虾类造成显著的生理压力和物理伤害，操作效率低下，且操作者之间的主观性差异导致测量结果存在较大差异。这些因素共同阻碍了大规模自动化和高频监测的实施，从而限制了智能渔业和数字水产养殖管理的进步[7]。

近年来，计算机视觉和深度学习技术越来越多地被整合到水产养殖中，以促进非接触式的表型测量[8,9,10,11,12,13]。在目标检测和关键点识别领域，Gong [14]利用Faster R-CNN检测虾类的多个解剖区域，并通过参考缩放实现了精确的参数转换。Qin [15]将Mask R-CNN与Cascade Pyramid Network (CPN)结合使用，显著提高了关键点识别的精度，甲壳和腹部测量的平均误差低于3.51%。类似地，Li等人[16]使用High-Resolution Network (HRNet)对Penaeus monodon进行了关键点定位，平均准确率达到93.79%。此外，Xi等人[17]通过整合可穿戴传感器、深度相机和机器学习技术研究了自动化监测。在图像分割方面，Liu等人[18]应用了改进的AlexNet来识别软壳虾，而Liu等人[19]开发了适用于深海笼养环境中鱼类分割的自适应多尺度背景模型。另外，Liu等人[20]引入了基于LeNet-5的ShrimpNet，用于针对性地进行虾类图像分割。

尽管取得了这些技术进步，现有方法在复杂的水下环境中仍面临环境干扰和特征退化等重大挑战。浑浊的水质、不均匀的照明以及悬浮碎片的背景噪声经常削弱了传统卷积神经网络（CNN）准确划分目标边界的能力。此外，虾类附肢的细长和半透明特性导致在依赖单尺度卷积或深度语义特征时结构出现碎片化或丢失，直接降低了后续生物物理测量的准确性。为了解决这些问题，本文提出了一种改进的U-Net架构，称为DCRAG-UNet（结合了扩张卷积和残差混合注意力门的U-Net）。该模型通过整合扩张卷积来扩展有效感受野，捕获多尺度上下文信息，并通过残差混合注意力门有效抑制背景噪声，同时增强边界特征提取。这种方法显著提高了L. vannamei在复杂水下背景中的分割精度。在高质量分割掩模的基础上，通过结合形态学骨架提取算法和亚像素几何校正策略，开发了自动化身体长度测量和长度-重量回归模型。本研究提供了一种高精度的自动化生物量估算框架，减少了人工干预，同时提高了智能水产养殖场景中生长监测的鲁棒性和效率。

2. 材料与方法

本节全面概述了为L. vannamee开发的实验方法、模型架构和表型估算技术。2.1节详细介绍了数据采集过程、硬件配置以及为确保数据集质量而采用的严格像素级注释和增强策略。2.2节介绍了提出的DCRAG-UNet架构，特别关注了多尺度扩张卷积和残差混合注意力门（RAG）在水下环境中的集成，以实现稳健的特征提取。2.3节描述了使用Zhang–Suen细化算法和几何校正因子提取精确身体长度的形态学参数估算工作流程。2.4节建立了基于异速生长定律的生物量回归模型，以从骨骼长度推导重量。最后，2.5节概述了实验环境，包括用于模型训练的硬件规格和超参数配置。

2.1. 实验数据集和数据预处理

2.1.1. 数据来源和采集背景

本研究的主要实验数据来自Ramírez-Coronel等人在Mendeley Data仓库发布的Litopenaeus vannamei综合公共数据集。图像是在墨西哥Sonora的工业化虾场和学术实验设施中，在稳定的自然光照条件下拍摄的。为了复制标本的自然游泳姿势，样本被放置在深度为10厘米的受控观察池中。成像系统使用了双硬件配置：Logitech C920相机和与Raspberry Pi B3集成在一起的1200万像素高清（HD）相机。这种设置提供了多样化的图像质量和光学视角，从而丰富了用于训练的样本群体的代表性。详细的硬件配置和采集过程如图1所示。

2.1.2. 数据选择和像素级注释

从最初的包含170个个体5507张图像的仓库中，严格筛选出了来自单个工业化农场的58个个体，以确保环境和表型的一致性。为了适应高精度的语义分割，进行了二次处理：仅保留了清晰度高、包含完整且未被遮挡的单个虾的图像，最终数据集包含798张图像，共50个个体虾。随后使用Labelme工具进行了像素级语义注释，生成了高保真的二值掩模，作为DCRAG-UNet模型的真实标签（GT）。与原始研究中提供的边界框或点注释不同，这种手工重新注释确保了网络能够准确捕捉虾的细微形态边界和细长附肢。原始水下图像和注释掩模的对比如图2所示。

2.1.3. 数据增强和数据集分割

为了降低模型过拟合的风险并提高在复杂水下场景中的泛化能力，实施了多维数据增强策略。这包括几何变换（旋转和随机翻转）、像素级强度调整（亮度和对比度变化）以及噪声注入（高斯模糊），以模拟密集化养殖中典型的多变的水质和光照条件（图3）。这些操作将数据集的体积扩大到了原来的五倍，共计3990张图像。为了支持严格的评估框架，增强的图像库被分为训练集和测试集：训练集包含3,192张图像，测试集包含798张图像。这种分配遵循标准的8:2比例，为模型优化和客观验证提供了足够的样本量。

2.2. DCRAG-UNet模型架构

DCRAG-UNet架构专为应对水下低对比度图像和L. vannamee复杂的形态学特征而设计。完整的架构如图4所示。

2.2.1. 通过扩张卷积进行多尺度特征提取

为了在保留标准池化操作中经常丢失的空间分辨率的同时捕获全局上下文信息，将扩张卷积（也称为有孔卷积，这种方法由DeepLabv3+等架构广泛推广）集成到了瓶颈层。对于2D输入信号x，带有滤波器w和扩张率r的扩张卷积的输出定义为

这种机制有效地扩展了感受野，使得网络即使在高分辨率特征图中也能感知到虾的整个纵向跨度，确保了分割过程中的结构连续性。扩张卷积的架构如图5所示。为了确定扩张卷积层的最佳配置，对不同的扩张率（r）进行了比较实验。实验结果表明，分割性能在扩张率为某个值时达到峰值（图6）。这种最优性在于，适度的扩张率确保了足够的感受野来捕获全局上下文信息，同时减少了与过度稀疏空间采样相关的“网格化伪影”或信息损失的风险。因此，这种配置在多尺度特征整合和保持局部空间细节之间保持了良好的平衡，这对于准确划分L. vannamee的细长形态特征至关重要。

2.2.2. 残差混合注意力门（RAG）

与传统的注意力门（如Attention U-Net中的那些）不同，传统的注意力门将门控系数直接与输入特征相乘，导致在低对比度环境中精细边界梯度的潜在退化。所提出的RAG采用了跳跃-残差路径（）。理论上，这种双路径方法确保了注意力机制仅作为背景抑制滤波器（用于噪声），而恒等映射保留了重建L. vannamee半透明附肢所需的高频空间梯度。这使得RAG比标准的乘法注意力更适合浑浊的水下成像。

门控系数计算如下：

其中g是来自较粗尺度的门控信号，表示来自编码器的特征。通过添加残差路径，最终输出变为，确保在注意力过程中保留了关键的边缘特征而不是被过滤掉。所提出的残差混合注意力门（RAG）的结构逻辑和操作原理如图7所示。

2.3. 形态学参数估算

使用Zhang–Suen细化算法[23]处理分割掩模，以提取中心骨架，包括骨架化、分支检测、长度构建和总长度计算（图8）。为了考虑虾的自然曲率，应用了一个几何校正因子：

其中C是像素到米度的校准常数。在二值化的L. vannamei图像的骨架化过程中，由于虾的复杂形态结构，头部和尾部区域附近经常会出现冗余分支（图9）。因此，实施一个稳健的后处理工作流程——包括分支检测、剪枝和总长度重建——对于确保测量精度至关重要。在本研究中，最终的身体长度是通过将主骨架长度与特定的分支补偿因子相结合来估算的，如图10所示。这种加性方法有效纠正了由于非线性骨骼部分导致的低估，从而提高了自动化表型分析的精度。

图9. 提取前后虾骨架的对比：(a) 提取骨架前；(b) 提取骨架后。

图10. 构建总长度的过程。具体来说，首先提取L. vannamei骨架的主轮廓长度。为了处理头部和尾部极端处的潜在分支，算法检测由分支起点和相应末端形成的三角形。为了更准确地反映由于虾身体的自然曲率和形态复杂性导致的长度损失，计算了从分支起点（A）到连接分支末端（B和C）的直线之间的垂直距离。补偿长度定义为（4），其中代表分支（段或）的非斜边长度，表示从端点（B或C）到垂直线脚点（D）的距离，如图9所示（具体为段或）。因此，总身体长度使用以下积分公式得出：（5）2.4. 生物量回归利用Yang等人[24]提出的L. vannamei长度-重量（L-W）回归模型的方法，本研究基于个体身体长度（L）和湿重（W）的实证测量建立了一个异速生长模型。指数关系表示为（6）为了便于参数估计并确保统计稳健性，通过对数转换将幂律模型线性化，得到（7）随后使用普通最小二乘法（OLS）进行线性回归，从而得出参数a和b的估计值以及决定系数（）。最终的回归方程表示为（8），其中W表示体重（克），L表示身体长度（厘米）。较高的值表明在生物量估计的背景下回归模型的拟合度更好。2.5. 实验环境和超参数所提出的架构的计算执行是通过PyTorch 2.5.0进行的，利用了NVIDIA GeForce RTX 4060 Ti GPU（16 GB VRAM）提供的硬件加速。在200个周期的时间里，模型使用Adam算法进行了优化，批量大小固定为16，初始学习率为。为了减轻水下图像中像素类别不平衡带来的挑战，采用了结合二元交叉熵和Dice损失的复合目标函数。3. 结果 3.1. 分割准确性为了全面评估所提出的DCRAG-UNet模型在L. vannamei图像分割方面的性能优势，与几个最先进的模型进行了比较实验，包括原始的U-Net [25]、UNet++ [26]、ResUNet [27]、TransUNet [28]、Swin-UNet [29]、VM-UNet [30]、DeepLabv3+ [22]、LightM-UNet [31]和Attention U-Net [32]。为了确保比较分析的完整性，所有评估的模型都使用了统一的训练和测试数据集、标准化的超参数初始化以及同步的硬件环境。如表1所示——其中最有利的结果以粗体突出显示——各种网络架构在效果上存在显著差异。值得注意的是，DCRAG-UNet在所有定量指标上都超过了传统模型。对表1中性能指标的分析显示，所提出的架构在Dice分数和mIoU值上始终优于其他框架，展示了其在L. vannamei养殖特有的具有挑战性的水下条件下的特别适应性。表1. 分割模型性能比较。为了评估DCRAG-UNet在实时边缘计算环境中的部署可行性，进行了计算成本的实证评估。该模型包含17.44M个参数，需要163.26 GFLOPs的计算能力。在NVIDIA RTX 4060 Ti上进行推理时的峰值GPU内存消耗为1.8 GB。每帧的平均推理时间为27.71毫秒（约36.07 FPS），表明引入扩张卷积和RAG模块带来的计算开销可以忽略不计（与标准U-Net相比仅增加了0.16毫秒），同时满足了智能水产养殖系统的实时处理要求。为了进一步评估像素级别的分类准确性以及模型区分虾体和复杂水下背景的能力，生成了混淆矩阵（图11）。如图11所示，DCRAG-UNet表现出异常高的特异性，背景和虾类之间的误分类率非常低，从而验证了RAG模块在抑制清晰度较低的背景干扰方面的有效性。表1的结果表明，所开发的DCRAG-UNet模型取得了高保真度结果，特别是达到了98.72%的平均交并比（mIoU）和98.55%的Dice分数。实验结果表明，所提出的框架在分割精度和估计准确性方面都优于最先进的对比模型。与ResUNet和DeepLabv3+等传统架构相比，我们的模型在所有性能指标上都表现出持续的改进，凸显了其在捕捉形态细节方面的优越能力。为了进一步可视化DCRAG-UNet的分割性能，图12展示了代表性结果。图12. 不同模型的分割效果。3.2. 消融研究为了评估模型组件的个别贡献和架构逻辑，进行了消融研究，以分离扩张卷积和残差混合注意力门（RAG）对整体效果的影响。这项研究使用了三个不同的基准：DC-UNet（仅依赖扩张卷积）、RAG-UNet（仅使用注意力机制）和标准U-Net（作为控制基线）。表2和表3中详细列出的定量结果表明，单独包含扩张卷积产生的Dice系数为97.02%，mIoU为97.07%。同时，独立的RAG模块达到了97.66%的Dice分数和97.72%的mIoU。虽然这两种独立增强都超过了基线的能力，但通过将它们结合在DCRAG-UNet中实现了最大的性能提升。这种配置达到了98.55%的Dice系数和98.72%的mIoU，证实了结构修改协同作用以优化分割结果。表2. 所提出的DCRAG-UNet的消融实验设计。表3. 所提出的DCRAG-UNet的消融研究。3.3. 生物量参数估计结果 3.3.1. 身体长度估计性能为了验证所提出系统的实际应用，随机选择了30个L. vannamei样本，其身体长度范围为105.00–122.00毫米。表4展示了所提出的DCRAG-UNet算法估计的身体长度与手动真实值之间的比较。结果表明，与手动测量结果高度一致，最大相对误差和最大绝对误差分别为1.83%和0.204厘米。此外，最小相对误差和绝对误差分别低至0.37%和0.045厘米（表5），证实了基于骨架的测量策略的精度。表4. 随机选择的L. vannamei样本的长度测量结果。表5. 30个随机选择样本的手动测量和算法估计的身体长度之间的比较。为了研究扩张卷积、残差注意力门、形态骨架提取和亚像素几何校正等组件对身体长度估计任务的影响，设计并验证了一系列消融实验（表6和表7）。这里，DC表示扩张卷积，RAG表示残差混合注意力门，SeGc表示形态骨架提取和亚像素几何校正。具体来说，DCRAG-UNet指的是未进行几何校正的误差估计，而SeGc-DCRAG-UNet指的是进行几何校正后的误差估计。结果表明，当结合形态骨架提取和亚像素几何校正进行身体长度估计时，所提出模型的误差最小，仅为0.112厘米。表6. 长度测量的消融实验设计。表7. 消融实验结果。3.3.2. 体重预测准确性随后利用估计的身体长度值作为生物量重量估计模型的输入。表8总结了预测重量与手动测量真实值之间的比较。性能分析表明，从建立的长度-重量回归模型得出的重量估计平均相对误差为6.92%，平均绝对重量误差为2.163克（表9）。这些结果验证了该集成框架在智能水产养殖场景中用于非侵入式生物量监测的可靠性。表8. 基于测量数据的身体长度和体重估计模型的统计验证。表9. 基于分割形态特征的重量估计模型评估结果。4. 讨论实验结果表明，所提出的DCRAG-UNet框架显著提高了在复杂水下环境中对L. vannamei的生物量估计精度。传统的分割网络通常难以处理密集水产养殖中典型的低对比度边界和背景噪声。通过整合扩张卷积，我们的模型有效地扩展了感受野，同时保持了空间分辨率，这对于捕捉虾的纵向连续性和精细特征至关重要。DCRAG-UNet的卓越性能，体现在98.55%的Dice系数上，主要归因于残差混合注意力门（RAG）。与标准的乘法注意力机制不同，RAG包含了一个残差路径，即使在抑制水下噪声时也能保持高频空间梯度。这种架构选择成功减轻了悬浮固体和光线折射的干扰，克服了U-Net或TransUNet等主流模型中经常观察到的分割碎片化问题。此外，亚像素几何校正和形态骨架提取算法的协同效应将身体长度测量误差降低到了1.12%。这证实了补偿L. vannamei的自然曲率是实现高保真生物表型分析的先决条件。在基于视觉的水产养殖中，保持模型在不同水条件下的鲁棒性是一个关键挑战。在本研究中，尽管数据集来自一个受控的10厘米观察池以确保高保真度真实值，但我们通过计算模拟考虑了环境退化。通过在数据增强过程中应用高斯噪声和对比度扰动，我们模拟了浑浊度和不同照明水平的视觉效果。然而，必须承认，现实世界的商业池塘具有更混乱的背景，包括藻类群落和不规则的底部地形。对所提出架构的后续改进可能会整合领域适应策略，以减轻实验室池塘和野外开放池塘数据集之间的统计差异。该模型的计算效率支持了工业规模监测的潜力，推理时间为18.2毫秒（约55 FPS）。虽然当前研究关注的是孤立个体以建立精确的形态基线，但实际工厂养殖涉及高密度种群。为了将所提出的框架扩展到现实世界的工业场景，设想了一个多阶段流程。这包括将DCRAG-UNet与多目标跟踪算法（例如ByteTrack）集成，以在执行分割之前从群集中分离个体。或者，该框架可以在专用的自动采样室或观察通道中部署。这种硬件-软件的协同作用将允许在高通量、非侵入式测量中不中断连续的养殖操作。尽管重量估计的可靠性很高（6.92%的误差），生物变异性仍然是不确定性的来源。未来的研究将探索非参数统计模型和多视图成像，以进一步减少估计误差。此外，我们旨在研究该模型在超高密度条件下的性能及其对其他水生物种的适应性，最终将此框架发展成一种全面的智能监测技术，用于监测虾的生长和健康状况。5. 结论本研究提出了一种基于改进的DCRAG-UNet和形态分析的自动化生物量估计框架。凭借98.72%的mIoU和98.55%的Dice系数，该架构在特定分割任务中表现出卓越的精确度，优于标准基准。研究结果证实，将深度语义分割与几何形态测量相结合是智能水产养殖的一种非常有效的技术途径。这种方法为精确喂养和收获决策提供了关键的实际生长数据，显示出在工业推广和智能渔业管理方面的巨大潜力。

热点排行