《Biomedical Signal Processing and Control》:RCDAN: A novel network for retinal vessel segmentation with rotational convolution and dynamic attention
编辑推荐:
李国杰|安瓦尔·P.P.阿卜杜勒·马吉德|穆罕默德·阿提克|阮安|张帆中国江苏省苏州215000,西安交通大学利物浦大学机器人学院摘要视网膜血管分割对于诊断眼部疾病和全身性疾病至关重要,但由于其形态复杂,具有不同的厚度和曲线结构,因此面临很大挑战。尽管深度学习显著推动了图像分割领
李国杰|安瓦尔·P.P.阿卜杜勒·马吉德|穆罕默德·阿提克|阮安|张帆
中国江苏省苏州215000,西安交通大学利物浦大学机器人学院
摘要
视网膜血管分割对于诊断眼部疾病和全身性疾病至关重要,但由于其形态复杂,具有不同的厚度和曲线结构,因此面临很大挑战。尽管深度学习显著推动了图像分割领域的发展,但由于血管几何结构复杂、视觉Transformer的自注意力计算成本高,以及现有方法在多尺度特征整合方面的局限性,这一任务依然困难。为解决这些难题,我们提出了旋转卷积动态注意力网络(RCDAN),该网络包含三个创新模块:自适应旋转Inception深度卷积模块、动态选择性单头视觉Transformer模块以及统一注意力模块。在DRIVE和CHASEDB1数据集上的实验结果,以及在未见过的STARE数据集上的跨数据集评估表明,RCDAN在分割精度与计算效率之间取得了良好的平衡。值得注意的是,RCDAN的实时推理速度可达215帧/秒,参数量仅为10.82百万,这使其易于集成到实际临床工作中。此外,定性分析和拓扑分析显示,该模型能够更清晰地勾勒出细小且对比度低的血管,体现了其在处理复杂解剖结构时的强大能力和灵敏度。
引言
视网膜血管分割对于分析眼底图像以及诊断糖尿病视网膜病变和高血压视网膜病变等导致视力受损和失明的眼部及全身性疾病具有重要意义[1]、[2]、[3]。这些血管是检测血流和血管异常的关键生物标志物[4]。由于这类疾病的发病率很高,而能够手动处理大量眼底图像的眼科医生又十分短缺,因此自动分割技术显得极为重要[5]。
然而,由于血管厚度变化、与背景对比度低以及血管复杂的曲线形态等因素,视网膜血管分割工作难度较大(见图1(a–c))[6]、[7]。这些困难使得手动分割既耗时又容易出错,这就凸显出需要可靠的自动化方法。
深度学习方法,尤其是卷积神经网络[8]和视觉Transformer[9],被广泛用于视网膜血管分割领域。卷积神经网络具备强大的空间特征提取能力,擅长捕捉局部特征,但其感受野较小,需要使用更大的核或构建更深的网络,这会增加计算成本[10]、[11]。ConvNeXt[12]和InceptionNeXt[13]等模块通过深度卷积和方向卷积提高了效率,但仍难以模拟视网膜血管的细长曲线特征。视觉Transformer利用全局自注意力捕捉长距离依赖关系,但存在多头自注意力的二次复杂性和冗余问题[14]、[15]、[16]。单头视觉Transformer通过单头注意力降低了冗余性,从而降低了复杂性,但它仍采用固定的通道选择比例,可能会遗漏重要特征。此外,通道注意力[18]、空间注意力[19]和像素注意力[20]等注意力机制仅关注单尺度特征,未能体现视网膜血管的多尺度特性。这些问题凸显出三个关键缺陷:(1)卷积操作对血管形状的适应性有限;(2)视觉Transformer中的多头自注意力计算成本高且易出现冗余;(3)现有的注意力机制无法有效建模和整合多尺度特征。
为解决上述问题,我们提出了旋转卷积动态注意力网络(RCDAN)。RCDAN的核心模块——自适应旋转Inception深度卷积模块,借鉴了分布式架构和InceptionNeXt[13]的设计理念。它采用任务分解策略,将特征提取分解为多个并行子任务,每个子任务使用不同形状的卷积核来适配视网膜血管的特定特征。值得注意的是,ARIDC整合了两种旋转带状卷积核:一种是深度卷积的特殊变体,其长方形权重矩阵会按照预定方向进行动态旋转。这类带状卷积旨在增强对方向性模式(如曲线状血管结构)的敏感度,而传统的方形卷积核则用于提取各向同性的局部特征(见图1(d))。这种设计理念与生物系统中的特殊组件各自承担不同功能类似。最终,各模块的输出通过通道级串联和自适应加权进行融合,实现特征间的互补整合。
虽然ARIDC在空间特征提取方面表现优异,但在建模血管网络的全局语义结构方面存在不足。为解决这一问题,我们引入了动态选择性单头视觉Transformer模块。该模块在SHViT[17]的基础上进行了两项重要改进。首先,SHViT采用固定的通道选择规则(均匀间隔采样),而我们提出了一种动态选择机制,根据特征激活强度自适应确定用于自注意力计算的显著通道,从而解决了SHViT静态选择可能无法匹配任务特定语义重要性的问题。其次,考虑到医学数据集规模有限,我们通过保留SHViT的单头架构并避免使用额外的多层感知机层,严格控制了模型参数数量。这种轻量级设计在降低模型复杂度带来的过拟合风险的同时,仍能保持对全局依赖关系的建模能力。
为进一步实现有效的多尺度特征整合,我们提出了统一注意力模块,该模块灵感来源于挤压激励机制,但对其进行了大幅扩展。与传统仅在单一尺度上运行的SE模块不同,UA模块能够聚合所有输入尺度的全局描述符,并通过轻量级多层感知机将它们共同处理,以建模跨尺度交互关系。由此产生的统一注意力向量会被自适应分割并应用于对应的各个尺度,从而实现全局上下文感知与各尺度特征的重校准。
重要的是,这种设计策略使RCDAN区别于现有的两种主流方法。首先,与那些对静态、各向同性特征图进行重校准的传统基于注意力的U-Net变体不同,RCDAN结合了方向感知的特征提取与动态通道选择。其次,与那些通常通过池化或固定可导向滤波器来确保无论输入方向如何输出都保持一致的旋转不变模型不同,我们的ARIDC模块采用了自适应对齐策略。通过明确设定旋转角度,网络能够使其卷积核与局部血管轨迹动态对齐,从而保留追踪曲线结构所需的方向信息,而非为追求不变性而抑制这些信息。
总之,本研究做出了以下贡献:
- •
我们设计了ARIDC模块,该模块利用旋转带状卷积和多个并行分支来捕获血管的多方向特征。
- •
我们提出了DS-SHViT模块,这是一种动态选择性机制,可通过稀疏激活的自注意力整合全局依赖关系。
- •
我们开发了UA模块,该模块通过计算跨尺度的统一注意力权重,实现多尺度特征整合。
- •
在视网膜血管分割任务上的实验结果表明,我们的RCDAN模型在分割精度与计算效率之间取得了更好的平衡(见图2),而且所提出的三个模块均优于现有方法。
章节节选
视网膜血管分割
现有的视网膜血管分割方法大致可分为单一方法模型和混合模型两类。单一方法模型主要依赖某种单一的架构策略,比如卷积网络,来解决视网膜血管分割问题。例如,DUNet[21]在U-Net框架中采用了可变形卷积,能够根据血管的尺度和形状动态调整感受野,从而提升其对细弱和不规则血管的分割能力。同样地,
方法
图3展示了我们提出的旋转卷积动态注意力网络(RCDAN)模型的架构,该模型采用编码器-解码器框架来实现视网膜血管分割功能。编码器部分由自适应旋转Inception深度卷积模块组成,这些模块利用旋转卷积和多个并行分支来捕获血管的多方向特征。在颈部区域,则采用了动态选择性单头视觉Transformer模块,该模块能够实现
数据集与评估指标
我们的方法在DRIVE[33]和CHASEDB1[34]数据集上进行训练和评估,并通过STARE[35]数据集的跨数据集测试进一步验证。DRIVE数据集包含40张眼底图像(20张用于训练,20张用于测试),分辨率为584×565像素,涵盖了正常和病理病例。CHASEDB1数据集包含28张图像(20张用于训练,8张用于测试),分辨率为999×960像素,这些图像来自9至10岁的多元族裔儿童。STARE数据集则提供了20张彩色眼底
讨论
RCDAN为视网膜血管分割提供了一种高效且模块化的框架,成功解决了高精度形态建模与计算效率之间的矛盾。如表2所示,我们的方法在DRIVE和CHASEDB1两个数据集上均取得了最先进的性能。虽然与近期的一些竞争方法相比,准确率和交并比等全局指标的绝对提升幅度看似不大,但通过更深入的统计和拓扑分析
结论
在本文中,我们提出了RCDAN,这是一种专为解决视网膜血管分割难题而设计的有效框架。通过整合自适应旋转Inception深度卷积模块、动态选择性单头视觉Transformer模块以及统一注意力模块,该模型旨在捕捉复杂的血管结构,同时减少计算冗余。在DRIVE和CHASEDB1数据集上的实验结果表明,RCDAN
CRediT作者贡献声明
李国杰:撰写——初稿、可视化、方法论、研究、概念构思。安瓦尔·P.P.阿卜杜勒·马吉德:撰写——审阅与编辑、指导、数据整理。穆罕默德·阿提克:撰写——审阅与编辑、验证、指导。阮安:撰写——审阅与编辑、验证、指导、方法论。张帆:撰写——审阅与编辑、验证、指导、资源协调、项目管理、方法论、概念构思。
利益冲突声明
作者声明,他们不存在任何可能影响本文研究结果的已知利益冲突或个人关系。
致谢
作者们想要感谢西安交通大学利物浦大学的高性能计算平台,为他们的研究提供了必要的计算资源。