《Journal of Imaging》:Frequency-Guided Cross-Modal Interaction for Multimodal Yeast Classification Based on Light-Scattering and Microscopy Images
编辑推荐:
病原酵母的准确识别对于临床诊断和有效抗真菌治疗至关重要。然而,当前方法主要依赖于基于显微镜的模型,这些模型需要大规模标注数据集,并且在形态相似的物种中表现出有限的泛化能力。相比之下,光散射(LS)成像捕获由内部细胞结构产生的衍射图案,提供超越表面形态的体积生物
病原酵母的准确识别对于临床诊断和有效抗真菌治疗至关重要。然而,当前方法主要依赖于基于显微镜的模型,这些模型需要大规模标注数据集,并且在形态相似的物种中表现出有限的泛化能力。相比之下,光散射(LS)成像捕获由内部细胞结构产生的衍射图案,提供超越表面形态的体积生物物理线索,但其间接表示对特征判别构成了重大挑战。研究人员的目标是开发快速准确的方法来检测各种酵母物种。研究人员提出了FPA-YeastNet,这是一种频率增强的单模态深度学习架构,通过利用判别性频域特征来改进LS图像中的酵母分类。在此基础上,研究人员进一步提出了FGCA-YeastNet,这是一种频率引导的跨注意力网络,旨在整合LS和显微镜信息以进行互补表示学习。所提出的多模态模型通过自适应融合和双向注意力促进了体积散射结构与细粒度细胞纹理之间的协同交互,从而提高了鲁棒性和可解释性。在多模态酵母数据集上进行的综合分类实验表明,FGCA-YeastNet有效地弥补了LS和显微镜模态之间的性能差距,在单模态和多模态基线模型上均取得了显著改进。与仅使用LS的模型相比,FPA-YeastNet的平均准确率提高了6.26%,而FGCA-YeastNet在单模态和多模态基线模型上分别进一步提供了19.97%和7.67%的平均增益。实验结果展示了光散射和显微镜成像的诊断潜力,并强调了频率引导的多模态协作在临床微生物学中实现可靠且可解释的酵母分类的有效性。
病原酵母的准确鉴定是临床诊断和有效抗真菌治疗的基础。当前主流方法依赖基于显微镜成像的模型,这类模型需要大规模标注数据集,且在形态相似物种间泛化能力有限。光散射(light-scattering, LS)成像通过捕捉内部细胞结构产生的衍射图案,提供超越表面形态的体积生物物理线索,但其间接表示形式导致特征区分困难。为此,研究人员开展了频率引导的多模态融合研究,旨在提升酵母分类的准确性和鲁棒性。研究人员提出了FPA-YeastNet,一种频率增强的单模态深度学习架构,通过强调中频带频谱特征改善LS图像中的酵母识别。在此基础上进一步提出FGCA-YeastNet,一种频率引导的跨注意力网络,整合LS与显微镜信息进行互补表示学习。在七种临床相关酵母物种上进行的综合实验表明,该框架在准确率和F1分数上均显著优于单模态及多模态基线模型,验证了LS与显微镜成像结合的诊断潜力,为微生物鉴定提供了快速稳健的解决方案。该论文发表在《Journal of Imaging》。
主要关键技术方法包括:(1)频率感知注意力(Frequency Perception Attention, FPA)模块,通过二维傅里叶变换(2D Fourier Transform, FT)和环形掩码保留中频成分,结合空间注意力和通道注意力增强LS特征;(2)双向交叉注意力模块(Bidirectional Cross-Attention Module, BiCAM),实现LS与显微镜特征之间的相互查询与初步语义对齐;(3)频率引导跨注意力(Frequency-Guided Cross-Attention, FGCA)模块,通过频率门控(Frequency Gate, FG)机制根据LS的频谱能量分布重新加权键(key)表示,细化跨模态融合。样本队列来源:LS数据集包含七种临床重要酵母物种(Candida albicans、Candidozyma auris、Nakaseomyces glabrata、Candida parapsilosis、Candida tropicalis、Candida haemulonii、Pichia kudriavzevii),显微镜图像来自临床分离株和ATCC标准菌株,数据经预处理后统一为224×224像素。
**4.2.1 性能比较:FPA-YeastNet(单模态基线)** 在仅使用LS图像的条件下,与卷积神经网络(CNN)、Transformer及状态空间序列模型对比,FPA-YeastNet达到70.00%的平均准确率和69.55%的F1分数,优于最强基线ViT(F1分数3.71%的绝对提升),验证了频率域增强对LS图像特征判别能力的提升效果。
**4.2.2 性能比较:FGCA-YeastNet(多模态框架)** 在整合LS与显微镜图像的条件下,FGCA-YeastNet实现了94.78%的准确率和94.76%的F1分数,超越所有单模态显微镜模型(最佳为DenseNet201,F1分数87.67%)以及多模态基线(CrossViT和SwinFuse),分别提升准确率4.91%和10.43%,F1分数提升6.48%和12.57%。宏平均受试者工作特征(ROC)曲线显示FGCA-YeastNet具有最高的曲线下面积(AUC)。
**4.2.3 计算效率分析** FPA-YeastNet参数量和GFLOPs均低于大多数CNN、Transformer和状态空间模型,FGCA-YeastNet在保持较低计算开销的同时取得最高性能,验证了频率引导融合机制的效率优势。
**4.3.1 单模态消融实验** 通过改变频率感知注意力(FPA)模块的环形掩码带宽,发现中频带(0.15-0.35)取得最佳平均准确率,低频频段(0.0-0.15)和高频频段(0.35-1.0)性能下降,验证了中频成分承载最具判别性的散射结构信息。
**4.3.2 多模态消融实验** 逐步添加FPA、BiCAM和FGCA模块,模型性能依次提升,三者组合取得最优结果;且双模态输入(LS+显微镜)相比单模态显微镜输入,准确率提升7.87%,F1分数提升8.07%,证实了LS与显微镜特征的互补性。
**4.4 统计分析** 配对t检验显示FPA-YeastNet与最强LS基线(ViT)比较,FGCA-YeastNet与最强多模态基线(CrossViT)比较,p值均小于0.001,表明改进具有统计显著性。
**4.5 特征可视化** t-SNE可视化显示:LS特征簇内分散但全局可区分;显微镜特征簇内紧凑但某些物种存在重叠;融合特征同时具备全局可分性和局部紧凑性,验证了FGCA-YeastNet有效对齐异质线索。
**讨论部分总结** 研究人员验证了显微镜和光散射(LS)成像在病原酵母分类中的互补作用。显微镜主要捕获局部二维形态线索(表面纹理、形状、细胞边界),产生高簇内紧凑性;LS编码角度依赖的散射响应,反映内部折射率变化,尽管簇内方差较高,但通过独特的干涉条纹模式提供全局可区分性。FPA-YeastNet通过强调中频分量增强LS表示,FGCA-YeastNet通过粗到细的注意力机制(BiCAM进行全局对齐,FGCA利用LS频率先验细化对应)整合模态,有效减轻了空间形态特征(显微镜)与频率散射模式(LS)之间的异质性。t-SNE可视化证实融合嵌入结合了LS的全局可分离性和显微镜的局部紧凑性。
**研究结论翻译**:在本研究中,研究人员提出了一种频率增强的多模态框架用于病原酵母分类。通过引入FPA-YeastNet,研究人员通过选择性强调中频带频谱特征改进了基于LS的识别。此外,FGCA-YeastNet通过频率引导的跨注意力将此能力扩展到多模态设置,有效对齐了异质光学线索。在七种临床相关酵母物种上的大量实验表明,该框架在单模态和最先进的多模态基线上均取得一致优势。这些结果突出了将形态学成像与无标记散射特征相结合的诊断潜力,为微生物鉴定提供了快速稳健的解决方案。最终,本研究为生物分析中的高级多模态表示学习铺平了道路,特别适用于需要精细区分结构相似细胞的任务。