基于Mamba的多模态多视图眼科图像分析框架，用于建立对应关系及互补信息建模

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Visual Communication and Image Representation》：A Mamba-based multi-modal and multi-view ophthalmologic image analysis framework for correspondence relationships and complementary information modeling

【字体：大中小】 时间：2026年04月24日 来源：Journal of Visual Communication and Image Representation 3.1

编辑推荐：

　　视网膜疾病多模态多视角眼底图像分析框架研究提出基于Mamba的长程依赖建模方法，通过MMCSM模块建模跨模态对应关系，MVCSM模块挖掘多视角互补信息，有效提升视网膜病变定位与分类精度。

黄永浩|陈丽婷|周川|杨森

中国电子科技大学四川省智能数字媒体技术重点实验室，中国四川省成都市

摘要

多模态和多视图的眼科图像是临床眼科检查中的关键工具，因为它们可以提供生物标志物，并为视网膜疾病诊断提供广阔的视野。然而，由于不同模态之间的对应关系以及不同视角之间的互补性，分析眼科图像仍然是一个挑战。受到Mamba框架在平衡全局上下文依赖建模和线性时间复杂性方面的鼓舞，我们提出了一种基于Mamba的新颖眼科图像分析框架，用于学习全局上下文表示并融合不同模态和视图之间的信息。具体来说，我们提出了一种相应的选择性扫描策略来建模不同模态相关区域之间的长距离依赖关系。此外，为了挖掘不同眼底视角之间的互补长距离依赖信息，我们提出了一种基于Mamba的多视图扫描策略。已经在视网膜病变诊断任务上进行了大量实验，以评估我们模型在诊断视网膜病变方面的有效性。

引言

由视网膜疾病（如白内障、青光眼、糖尿病视网膜病变（DR）、病理性近视（PM）和年龄相关性黄斑变性（AMD）等引起的视力障碍是一个日益严重的全球公共卫生问题[1]，对个人、家庭和社会产生了深远影响。早期诊断视网膜疾病并及时进行护理干预（如手术和配镜）可以预防或逆转视力障碍和失明。因此，早期筛查和准确诊断视网膜疾病有助于改善眼睛健康，并实现许多可持续发展目标[1]，包括获得优质教育、减少贫困和提高生产力。多模态彩色眼底摄影（CFP）和荧光素眼底血管造影（FFA）图像是眼科医生日常临床实践中广泛使用的可靠工具，用于诊断视网膜病变，因为不同模态的眼底图像可以记录关于眼底病理的互补信息。此外，眼科医生经常联合分析来自不同视图的眼底图像，以弥补单视图眼底图像视野的不足，因为单视图眼底图像的视野仅为45°，无法捕捉所有眼底信息[2]。与单模态图像相比，多模态和多视图眼底图像中存在更多的序列关系，如图1所示。这些序列包含重要的全局上下文依赖关系，包括不同模态之间的对应关系以及不同视图之间的互补信息。例如，如果患者的CFP图像上存在病变，同一患者的FFA图像的相应区域可能会有不同的表现，如图1所示。相应的信息可以帮助眼科医生定位和确认病变的位置和类型。此外，从主要观察角度获得的眼科图像以黄斑为中心，仅包括45°的视野。来自其他视角的眼底图像可以提供补充的眼底信息，用于诊断，例如完整的血管趋势和病变边界，如图1所示。因此，提取不同模态眼底图像中的关键对应信息并挖掘不同视角眼底图像中的互补信息对于准确诊断视网膜疾病至关重要。

最近，基于卷积神经网络（CNN）的多模态和多视图眼科图像分析方法越来越多地被提出，并且已经显示出比单模态方法更优越的性能。研究人员通过利用多种眼底模态和视图之间的互补信息，在许多视网膜病变诊断任务中取得了显著的性能提升，例如视网膜病变分类[3]、[4]、视网膜血管分割[5]、DR检测[2]和眼底症状报告生成[6]。具体来说，Wang等人[3]提出了一种具有两个分支的CNN来分类多模态眼科图像，而Luo等人[2]引入了注意力机制来学习不同视图的眼科图像之间的关系，用于DR检测。然而，由于CNN的固有局部性，这些眼底图像分析方法难以挖掘多模态和多视图眼底图像中的长距离上下文，从而影响了异常眼底区域的定位和筛查。

为了解决多模态和多视图眼底图像中的长距离依赖信息建模问题，最近的方法[7]、[8]采用了变换器[9]、[10]，这些变换器在序列的长距离上下文建模方面表现出色，以学习用于视网膜病变诊断的全局眼底上下文表示。然而，由于变换器的计算复杂性（与多模态和多视图眼底图像的大小和数量有关），这些方法在计算资源有限的临床实践中难以部署。此外，这些工作没有考虑CFP和FFA图像之间的对应信息。最近，提出了Mamba[11]，这是一种带有选择性扫描机制和硬件感知算法的的状态空间模型（SSM）扩展[12]、[13]、[14]，旨在在全局上下文依赖建模和线性时间复杂性之间实现有希望的平衡。一些最近的工作初步探索了Mamba框架在各种视觉任务中的潜力，如自然图像分类[15]、[16]、多模态学习[17]、[18]、医学图像分类[19]、[20]、医学图像分割[21]、[22]和医学图像重建[23]、[24]。然而，Mamba框架与SSM在分析多模态和多视图眼底图像用于视网膜病变诊断方面的潜力尚未得到充分研究。

受到临床实践中眼底模态和视图中的长距离上下文重要性的启发，以及Mamba框架的这些鼓舞人心的特性，本文提出了一种基于Mamba的新颖多模态和多视图眼科图像分析框架，用于融合不同模态和视图的眼底信息以进行眼科疾病诊断。我们介绍了视觉Mamba（Vim）[25]，这是一种专门为视觉理解任务设计的SSM，作为特征提取器来提取全局眼底特征并建模眼底长距离依赖关系。尽管Vim在全局依赖关系建模方面具有出色的能力，但它是为处理单模型图像而设计的。为了理解多模态和多视图眼底图像中的长距离上下文，我们提出了两种基于Mamba的扫描策略。具体来说，结合临床眼底观察，考虑了CFP和FFA图像之间的相应关系来建模多模态全局上下文依赖关系。我们设计了一种新颖的多模态对应扫描模块（MMCSM），通过利用两种眼底模态之间的相关关系来进行模型间全局上下文依赖建模和多模态信息融合。MMCSM可以通过利用不同模态相关区域之间的双向SSM来提高模型定位病变区域和分类病变类别的能力，如图2(a)所示。此外，基于图1中的分析，我们提出了一种多视图互补扫描模块（MVCSM）来学习不同视图之间的全局依赖关系。MVCSM包含一个2D选择性扫描（SS2D）[15]分支和一个多视图通道注意力分支。前者允许图像中的每个区域关注来自不同方向的所有其他视图的信息，如图2(b)所示，而后者旨在通过高维特征通道减少冗余的视图表示。

总结来说，我们的主要贡献如下：

•
我们设计了一个基于Mamba的高效眼科图像分析框架，用于学习多模态和多视图眼底图像中不同模态之间的对应关系和不同视图之间的互补信息，从而促进病理区域的定位和症状类别的识别。据我们所知，这是首次引入SSM来增强多模态和多视图视网膜诊断的研究。
•
为了学习不同眼底模态之间的相关关系并融合多模态信息，提出了一种新颖的相应选择性扫描策略MMCSM。它利用双向SSM来建模CFP和FFA模态相关区域之间的长距离依赖关系。
•
为了挖掘不同眼底视角之间的互补信息，设计了一种基于Mamba的多视图扫描策略MVCSM。MVCSM引入了SS2D方法来实现不同眼底视角之间的2D平面遍历，而多视图通道注意力分支减少了冗余的视图特征。
•
我们在两个视网膜疾病诊断任务上进行了实验，包括视网膜病变分类和报告生成，我们提出的方法的结果优于比较方法。

部分片段

多模态医学图像分析

多模态医学图像在临床实践和研究中的作用至关重要，因为它们包含每种模态特有的信息，这些信息可以相互补充。基于深度学习的多模态融合方法由于其强大的特征提取和特征融合能力，最近促进了多模态医学图像分析技术的发展。根据[26]，基于深度学习的多模态医学图像融合方法可以分为三种主要类型：

所提出的方法

多模态和多视图眼底图像中的长距离上下文包含了CFP和FFA模态之间的相关关系以及不同眼底视角之间的互补信息，这对于定位和识别视网膜疾病诊断的病理区域和症状类别至关重要。因此，我们提出了一种基于Mamba的眼科图像分析框架，有效地建立了来自不同眼底的信息的长距离依赖关系和融合

实验数据

据我们所知，很少有公共视网膜图像数据集同时包含来自多种模态和多个视图的眼底图像。在这项工作中，我们使用了两个多模态和多视图的眼科图像数据集，其中一个视网膜疾病分类数据集称为RDCD，来自[7]的工作；另一个眼底发现报告生成数据集称为FFRGD，来自[6]的工作，用于评估模型的视网膜病变诊断性能。这些数据集是匿名化的私人数据

可视化和讨论

对于RDCD上的十个视网膜疾病类别的分类，这些类别是不平衡的。为了进一步展示我们提出模型的性能，我们展示了第一轮实验中每个类别的接收者操作特征（ROC）曲线和接收者操作特征曲线下面积（AUROC），如图7所示。此外，我们还比较了五种比较方法，包括MMEFM [7]、Bi-Mamba [54]、ResNet-152 [65]、CrossFundus [8] 和 MVMFF [6]。

结论

在这项工作中，我们提出了一种基于Mamba的高效眼科图像分析框架，用于学习多模态和多视图眼底图像中不同模态之间的对应关系和不同视图之间的互补信息。它可以促进病理区域的定位和症状类别的识别。具体来说，我们设计了一种新颖的相应选择性扫描策略，称为MMCSM，用于学习

CRediT作者贡献声明

黄永浩：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，软件，方法论，调查，正式分析，数据管理，概念化。陈丽婷：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，方法论，调查，数据管理。周川：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，软件，方法论，调查，概念化。杨森：可视化，软件，方法论，调查，

伦理声明和批准

本研究没有直接涉及人类或动物研究。这些数据是按照机构规则和伦理标准收集的，已匿名化和去标识化。已获得必要的同意。虽然不需要典型的动物/人类研究伦理批准，但我们确保了数据的伦理处理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系，这些利益或关系可能会影响本文报告的工作。

致谢

本研究得到了中国自然科学基金的支持（编号：2023NSFSC0468，编号：2023NSFSC0031）

联系信箱：

粤ICP备09063491号

摘要

引言