青光眼是一种慢性眼病,如果不及时治疗,可能导致失明[1]。青光眼的发病率急剧上升,给全球人口带来了沉重负担[2]、[3]、[4]。临床上,医生通常通过检查视盘(OD)和视杯(OC)的形态以及测量杯盘比(CDR)[5]来筛查青光眼,如图1所示。一般来说,当CDR大于0.6时,可以确定患者患有青光眼。然而,这种方法耗时、成本高,并且眼科医生的主观诊断存在差异[6]。成像技术的发展推动了计算机辅助青光眼早期诊断技术的快速发展[7],因此迫切需要设计自动化的青光眼检测方法来辅助医生进行诊断。
在过去的诊断发展中,基于专家经验的传统手动特征提取方法被大量提出[8]、[9]并用于青光眼检测。然而,由于这些方法依赖于专业知识,不确定性高且鲁棒性差,在复杂的OD/OC精细分割任务中受到限制[10]。随着计算机视觉技术的发展,深度学习因其强大的特征提取和泛化能力而在医学图像分析中变得至关重要。与传统方法不同,深度学习可以自动学习和识别医学图像中的复杂模式。U-Net的出现极大地推动了这一领域的发展,其众多变体在OD和OC分割中表现出优异的性能,尤其是在准确描绘结构边界方面。
2020年后的最新进展进一步推动了OD/OC分割的技术边界。基于Transformer的架构,如Vision Transformer(ViT)[11]和Swin Transformer[12],被引入以捕捉CNN局部感受野之外的长距离依赖关系。混合模型如CC-TransXNet[13]结合了CNN和Transformer的优势,以改善特征表示。此外,通过对U-Net进行注意力机制[14]、概率建模[15]和嵌套跳跃连接(U-Net++ [16])的改进,更好地处理了多尺度特征和边界模糊问题。尽管有这些改进,但在自适应多尺度融合、精确边界定位以及处理不同青光眼阶段的类别不平衡方面仍存在挑战。
尽管多尺度方法取得了进展,但仍存在三个主要限制:(1)固定的融合策略难以应对动态病变大小;(2)有限的感受野无法捕捉低对比度边界;(3)类别不平衡降低了不同青光眼阶段的准确性。具体来说,像U-Net++这样的网络使用固定的特征融合方式,无法适应病变规模的变化。此外,由于CNN的感受野较小,经常无法准确捕捉OD/OC边界,导致边缘断裂和对齐不准确。最后,在不平衡数据上训练的模型在病变不明显的早期阶段表现较差。
受到上述问题的启发,我们提出了结合金字塔池化的多尺度密集网络(Multi-Scale Dense Network with Pyramid Pooling Network),该网络增强了特征融合,扩大了感受野,并提高了不同青光眼阶段的分割精度。本工作的主要贡献如下:
我们创新地将动态权重选择与通道注意力相结合,通过尺度选择模块实现自适应的多尺度特征融合,以适应变化的OD/OC形态。
我们设计了金字塔密集块,其中金字塔池化模块捕捉多层次的全局上下文,密集块增强局部特征的重用和梯度流,从而平衡细节保留和语义理解,提高了OD/OC边界的定位精度。
我们提出了改进的损失函数,该函数结合了Tversky指数和交叉熵,保留了Dice损失的优势,以解决类别不平衡和边界模糊的问题。
在三个公开数据集上的实验评估表明,我们提出的方法性能显著提升,明显优于现有的先进方法。
本文的其余部分安排如下:第2节回顾了OD和OC分割的相关文献。第3节描述了所提出的方法。第4节介绍了数据集和训练配置,并将MD-PPNet与现有的OD和OC分割模型进行了比较。最后,第5节进行了总结。