《Desalination and Water Treatment》:AlgaeFusion-YOLO: Research on Algae Detection in Water Bodies Based on Semantic-Augmented Feature Fusion
编辑推荐:
藻类固有特性及水下环境中的干扰因素,使藻类图像中有效特征信息的提取较为困难,导致传统目标检测模型性能欠佳,并频繁出现漏检。为应对这些挑战,本研究基于YOLO11主干网络构建了一个语义增强特征融合框架(AlgaeFusion-YOLO)。该框架创新性地引入WTC
藻类固有特性及水下环境中的干扰因素,使藻类图像中有效特征信息的提取较为困难,导致传统目标检测模型性能欠佳,并频繁出现漏检。为应对这些挑战,本研究基于YOLO11主干网络构建了一个语义增强特征融合框架(AlgaeFusion-YOLO)。该框架创新性地引入WTConv卷积模块,以增强对藻类形态与纹理的感知,并采用CBAM双通道注意力机制(Convolutional Block Attention Module,卷积块注意力模块)自适应聚焦于信息丰富区域,从而强化目标信息感知。BiFPN跳跃连接机制促进了不同尺度特征图之间的信息传递,提高了从微观到宏观层面的藻类特征提取能力。针对稀有藻属与常见藻属之间的类别不平衡问题,本研究进一步引入少样本学习(Few-shot Learning,FSL)与CLIP语义监督技术,有效缓解了稀缺藻种检测中的精度差距。实验结果表明,所提出模型在藻类数据集上的mAP达到83.9%,mAP@50–95达到56.4%,较YOLO11基线框架分别提升11.5%和14.3%。这些结果充分表明,该模型在水域场景中的藻类检测任务上具有良好的适应性与较高的检测精度。
该论文发表于《Desalination and Water Treatment》,聚焦于复杂水体场景中的藻类目标检测问题。研究背景在于,饮用水安全与水环境治理高度依赖对藻类变化的及时监测,而藻类既具有多样化形态、尺度跨度大、边缘模糊、透明细胞壁导致低对比度等视觉特征,又易受到水下光照衰减、反射、气泡、背景噪声和目标重叠等环境因素干扰,从而使传统显微人工分析方法和常规图像处理方法难以兼顾高精度与实时性。尽管深度学习目标检测技术已逐步应用于藻类识别,但既有方法多针对河流、湖泊、海洋或污水处理等特定场景,跨场景泛化能力不足;同时,稀有藻类样本匮乏、标注成本高、类别分布失衡等问题,进一步限制了模型对少见藻种的识别能力。因此,开展面向真实供水水体场景、兼顾多尺度特征建模与少样本适应能力的藻类检测研究,具有明确的工程价值和公共卫生意义。
针对上述问题,研究人员提出了语义增强特征融合检测框架AlgaeFusion-YOLO。该研究以YOLO11为基础骨干网络,通过引入WTConv卷积模块强化藻类微细纹理、边缘与结构信息的捕获能力;在主干特征提取过程中嵌入CBAM双通道注意力机制,以提升模型对关键藻类区域的选择性响应并抑制背景干扰;使用双向特征金字塔网络BiFPN(Bi-directional Feature Pyramid Network,双向特征金字塔网络)实现跨尺度、双向信息流动与加权融合,以改善微小目标边缘信息丢失和大目标语义稀释问题;同时结合少样本学习与CLIP(Contrastive Language-Image Pre-training,对比语言-图像预训练)语义监督,将视觉特征与藻类文本语义进行对齐,用于缓解稀缺样本类别检测性能不足的问题。研究结果表明,该模型在藻类数据集上的检测性能显著优于YOLO11基线框架,说明语义增强、多尺度融合与少样本辅助监督的联合设计对水体藻类检测具有显著促进作用。
从研究意义看,该工作不仅提升了复杂水体环境中藻类目标检测的精度,也为饮用水源监测、藻华预警和水质智能监管提供了更具实用性的技术路线。尤其是在样本稀缺、类别长尾分布明显的实际场景中,引入视觉—语言对齐与少样本机制,使模型在工程部署层面具备更好的扩展潜力。
在技术方法方面,研究人员以某华中地区城市水厂原水处理前显微采样图像为数据来源,构建包含1909幅图像、19类藻种的数据集。方法上主要包括:以YOLO11作为基础检测框架;用WTConv进行时域—频域联合特征增强;在主干网络残差块后嵌入CBAM注意力模块以强化通道与空间选择性;以BiFPN实现多尺度特征双向融合;在少样本场景下结合支持集—查询集匹配与CLIP语义监督完成图文语义对齐;并通过消融实验、增强策略比较和多模型对比验证方法有效性。
以下结合论文主体内容进行分部分解读。
1. Introduction
引言部分首先阐述了水体藻类监测与饮用水安全之间的紧密联系。研究指出,藻类在自然水体中虽参与生态循环与一定程度的自净过程,但其异常增殖可能诱发有害藻华,造成水体异味、变色及潜在毒性风险,进而危及人体健康与生态安全。因此,水体藻类检测是保障水资源安全的重要技术环节。
随后,研究系统归纳了藻类检测任务面临的关键困难:一是藻类形态多样、尺度差异大,对检测模型的多尺度适应性提出很高要求;二是部分藻类透明或低对比度,图像边缘模糊,难以稳定提取轮廓特征;三是藻类随机分布、密度波动明显,易产生遮挡与重叠;四是水下环境中的光衰减、反射和气泡等干扰会增加误检与漏检;五是专业标注依赖显微人员,导致数据采集和标注成本高,稀有藻类样本尤为匮乏。基于这些问题,研究人员认为传统YOLO11中的标准卷积在多尺度特征提取方面存在局限,因此提出围绕WTConv、CBAM、BiFPN以及少样本学习与CLIP语义监督展开模型增强。引言最后明确列出了三项技术创新:构建AlgaeFusion-YOLO框架、联合BiFPN与注意力机制实现全尺度特征提取、以及引入迁移学习和CLIP语义监督以提升少样本条件下的检测能力。
2. Related Work
相关工作部分主要从检测框架选择、面向水下场景的模型改进以及样本稀缺问题的解决路径三个层面展开。首先,研究比较了两阶段检测器与单阶段检测器的差异,指出Faster R-CNN类方法精度较高但速度较慢,YOLO与SSD等单阶段方法则在保持较快推理速度的同时具备较好的实用性。结合既有研究和对比实验,研究人员最终选择YOLO11作为基础框架。
其次,论文梳理了YOLO在水下目标检测中的可扩展性,指出CBAM、BiFPN、WTConv等模块已在珊瑚、底栖生物、鱼类等任务中展现出增强特征提取和复杂背景适应能力的潜力。最后,在数据稀缺问题上,研究总结了对抗迁移学习、少样本学习以及CLIP等视觉语言模型在提升小样本识别和未知类别表征方面的价值。通过这一文献脉络,论文论证了将多尺度卷积增强、注意力机制、双向特征融合以及语义监督联合用于水体藻类检测的合理性。
3. Method
方法部分给出了AlgaeFusion-YOLO的总体结构。研究人员首先在数据获取阶段使用显微镜对某市水厂原水中的藻类进行采样,并对图像进行去重、增强与去噪处理。随后,在模型优化阶段以YOLO11提取基础特征,通过WTConv增强藻类不同尺度下的纹理与结构信息,再借助CBAM提升网络对藻类关键区域的关注能力,并通过BiFPN完成多尺度特征融合。对于样本较少的类别,则利用少样本学习的支持集与查询集进行特征匹配,并与CLIP生成的文本语义特征进行对齐比较,以辅助目标类别判定。
3.1. Attention Mechanism
这一小节介绍了CBAM双通道注意力模块的作用机制。研究人员将CBAM嵌入YOLO11主干网络,用于优化水体藻类目标的特征提取。该模块先生成通道注意力图,再生成空间注意力图,通过对特征图在通道维度和空间维度分别赋予自适应权重,强化关键特征表达。论文指出,通道注意力通过最大池化与平均池化结合共享多层感知机实现,用于突出贡献更大的特征通道;空间注意力则通过池化后拼接并施加7×7卷积,使网络更聚焦于图像中目标所在区域。由此得出的结论是,CBAM有助于缓解藻类边缘模糊、光照干扰和形态多样带来的识别困难。
3.2. WTConv Convolution
该部分提出C3k2_WTConv模块,用于增强模型对藻类细粒度纹理与局部结构的捕获能力。研究人员指出,传统C3结构对微小藻类目标存在特征提取不足的问题,因此将WTConv集成到C3k2结构中。WTConv的核心是利用小波变换(wavelet transform)对输入特征图进行二维离散分解,获得低频近似分量LL和高频细节分量LH、HL、HH。其中特征含义分别对应整体形态以及水平、垂直、对角方向的边缘信息。研究通过对子带特征进行增强、学习可训练权重并进行加权融合,再与原始卷积特征进行残差结合,从而实现频域增强。该部分结论是,WTConv能够更有效地保留藻类微结构、边缘与纹理细节,为后续检测头提供更具判别性的表征。
3.3. BiFPN Module
本节重点说明BiFPN在多尺度特征融合中的作用。与传统FPN(Feature Pyramid Network,特征金字塔网络)相比,BiFPN引入自顶向下和自底向上的双向路径,并增加跨尺度连接,以提升不同层级语义信息的交互效率。研究人员指出,传统单向融合容易导致低层细节被高层语义稀释,小目标边缘信息也更容易丢失。BiFPN通过加权融合机制为不同尺度特征分配可学习权重,从而在融合过程中动态调节各层特征贡献。由此得出的结论是,BiFPN能够更好适配从微米级藻体到较大藻群的全尺度检测需求。
3.4. CLIP Semantic Supervision
该部分介绍了CLIP图文语义对齐机制在藻类检测中的应用。研究人员将藻类显微图像与相应类别文本描述映射到共享语义空间中,通过视觉编码器和文本编码器分别生成图像向量与文本向量,并进行L2归一化后以余弦相似度衡量匹配程度。训练目标是提升正确图文对的相似性并降低错误配对的相似性。该模块的主要作用是利用专业藻类描述文本为视觉分类提供语义辅助,尤其在稀有类别样本有限时,有助于增强分类判别能力并降低误检率。
4. Experiment
实验部分从实验设置、数据集构建、数据分析、预处理和实验分析几个方面系统验证了模型有效性。
4.1. Experimental Setup
研究在PyTorch框架下,使用NVIDIA GeForce RTX 4060 Ti GPU进行训练,输入图像统一为640×640,采用Adam优化器,初始学习率为1e?4,总训练轮数150轮,批大小为32,并引入Cosine Annealing学习率调整策略。损失函数由置信度损失、边界框回归损失和类别交叉熵损失加权构成。评估指标包括mAP、Recall、Precision和IoU(Intersection over Union,交并比)。这一设计说明研究同时关注检测精度、召回能力与定位质量。
4.2. Dataset
数据集来源于华中地区某城市水厂实验室,采用大恒成像ME2S-1610-24U3C相机进行采集。研究共获得1909幅图像,覆盖19种藻类。不同放大倍率用于不同藻种和其他水生生物的观察采集。研究还对YOLO11、Faster R-CNN、SSD和EfficientDet四种检测模型在原始数据集上进行了比较。结果显示,YOLO11在mAP@50、mAP@50–95和Recall等指标上整体更优,因此被选作AlgaeFusion-YOLO的基础骨干网络。该部分说明基础模型选择有明确的实验依据。
4.3. Data Analysis
研究对水样中的藻类组成进行了统计分析,发现Synedra占比最高,为15.89%,其次为Pseudanabaena 14.49%、Chlorella 13.33%、Chlamydomonas 4.69%,四者合计48.40%。Anabaenopsis占比最低,仅0.15%,显示出明显的类别长尾分布。进一步地,研究结合月份变化分析藻类数量波动,指出7月至12月间不同藻属呈现显著季节差异,其中8月部分藻类比例明显升高。论文将这一现象归因于温度、光照、营养盐等环境因素对藻类生长和繁殖的共同影响。该部分结果揭示了数据集的类别不平衡与季节性变化特征,也解释了少样本检测增强策略的必要性。
4.4. Data Preprocessing
在预处理方面,研究比较了ACE、AWE、HE和GWA四种图像增强技术,并结合噪声、PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)、SSIM(Structural Similarity Index,结构相似性指数)和MSE(Mean Squared Error,均方误差)评价图像质量。结果显示,AWE在噪声控制、PSNR、SSIM和MSE方面综合表现最佳。进一步将增强图像用于YOLO11检测后,AWE同样在mAP@50、mAP@50–95、Precision、Recall与IoU指标上取得最优结果。研究据此认为,AWE尤其适用于低对比度、结构模糊的藻类图像,可在一定程度上弥补水厂原水显微图像色偏和浑浊造成的识别障碍。
4.5. Experimental Analysis
消融实验是本文最核心的结果验证部分。研究依次构建了五种模型:YOLO11、YOLO11 + WTConv、YOLO11 + WTConv + CBAM、YOLO11 + WTConv + CBAM + BiFPN、YOLO11 + WTConv + CBAM + BiFPN + CLIP。结果显示,随着模块逐步加入,mAP@50由72.4%提升至83.9%,mAP@50–95由42.1%提升至56.4%,Precision由70.3%提升至80.5%,Recall由68.5%提升至78.1%,IoU由61.2%提升至71.7%。这些结果表明,各模块均对检测性能有稳定正向贡献,其中最终完整模型取得最佳效果,但FPS由54.9降至29.5,提示性能提升伴随一定推理速度代价。
在少样本检测实验中,研究构建不同规模子集分析样本数量与性能关系。结果显示,当样本量从100增加到300时,mAP@50由61.2%提升至71.4%,提升幅度较大;而当样本量进一步由1000增加至1500时,增益仅为0.5%,说明模型在极少样本阶段对数据规模较为敏感,随后性能增长趋于饱和。
最终,研究通过完整模型的推理可视化结果进一步验证了AlgaeFusion-YOLO在真实显微水体场景中的检测能力。
讨论部分可概括为:该研究围绕水体藻类检测中的多尺度、低对比度、背景干扰和样本稀缺等核心难题,构建了由WTConv、CBAM、BiFPN和CLIP语义监督协同组成的增强框架。实验结果表明,多模块联合设计相较单一改进更能系统性提升藻类目标检测性能,尤其在小目标、稀有类别和复杂背景场景下体现出明显优势。同时,论文也呈现了精度与速度之间的权衡,即随着模块复杂度增加,FPS有所下降,但在精度显著提高的前提下,该代价在实际水质监测任务中具备可接受性。整体上,研究通过数据分析、增强策略筛选、基础模型对比和消融实验,较为完整地验证了方法的有效性。
研究结论部分可译为:
为应对水体中具有挑战性的藻类检测任务,本研究提出并构建了一种创新性的语义增强特征融合检测框架(AlgaeFusion-YOLO)。该框架基于YOLO11主干网络,建立了多层级特征增强机制。首先,采用WTConv卷积模块强化藻类微观结构的频域特征表征,使模型能够有效捕获不同尺度下的藻类纹理与结构信息。其次,CBAM双通道注意力机制通过动态权重分配增强了对不同尺寸藻类目标的感知,显著提升了模型对低对比度藻体的定位能力。此外,BiFPN双向特征金字塔网络通过双向连接和重复加权融合机制优化了多尺度特征融合,从而保证了从微米级藻类目标到宏观藻类群落的准确检测。进一步地,本研究创新性地将少样本学习与CLIP语义监督模型引入藻类检测领域。借助视觉—语言特征对齐机制,模型能够利用专业藻类描述文本辅助分类决策,从而在样本稀缺条件下实现藻类目标检测,并有效降低误检率。