PF-CMNet：用于3D脑肿瘤分割的渐进式频率感知跨模态网络结合缺失模态蒸馏策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Brain Sciences》：PF-CMNet: Progressive Frequency-Aware Cross-Modal Network with Missing-Modality Distillation for 3D Brain Tumor Segmentation

【字体：大中小】 时间：2026年06月10日 来源：Brain Sciences 2.8

编辑推荐：

　　脑肿瘤的多模态磁共振成像（Magnetic Resonance Imaging，MRI）精确自动分割对于神经外科术前规划与图像引导手术至关重要。然而，现有三维分割模型在应对低病灶-组织对比度、模糊肿瘤边界、小体积强化肿瘤区域以及因成像模态缺失导致的性能退化方面

脑肿瘤的多模态磁共振成像（Magnetic Resonance Imaging，MRI）精确自动分割对于神经外科术前规划与图像引导手术至关重要。然而，现有三维分割模型在应对低病灶-组织对比度、模糊肿瘤边界、小体积强化肿瘤区域以及因成像模态缺失导致的性能退化方面仍面临挑战。本研究旨在构建一种稳健的分割框架，以提升跨模态表征学习、边界恢复能力及非完整输入条件下的分割性能。

研究人员提出PF-CMNet（Progressive Frequency-Aware Cross-Modal Network with Missing-Modality Distillation，渐进式频率感知跨模态网络结合缺失模态蒸馏），一种用于三维脑肿瘤分割的新型网络架构。该网络在编码器早期阶段引入跨模态选择性频率注意力模块（Cross-Modal Selective Frequency Attention，CMSFA），以建模模态特异性频率响应及空间自适应跨模态相关性；并采用渐进式跨尺度细节融合解码器（Progressive Cross-Scale Detail Fusion，PCDF）实现多级语义特征聚合与高分辨率边界细节细化。为增强缺失模态条件下的鲁棒性，研究采用教师-学生蒸馏策略，将全模态预测信息及浅层特征知识转移至经随机模态缺失训练的学生网络。

在医学分割十项全能（Medical Segmentation Decathlon，MSD）Task01_BrainTumour数据集上，PF-CMNet平均Dice系数达84.3%，其中强化肿瘤（Enhancing Tumor，ET）、肿瘤核心（Tumor Core，TC）及全肿瘤（Whole Tumor，WT）的Dice系数分别为79.6%、82.8%和90.4%。在BraTS2021数据集上，模型平均Dice系数达88.2%，并在对比方法中取得最低的平均95% Hausdorff距离（HD95）。在预定义的完整模态缺失压力测试中，当FLAIR、T1、T1ce、T2及T1+T2不可用时，经蒸馏的模型平均Dice系数分别维持在78.64%、82.58%、58.39%、82.03%和79.29%。

PF-CMNet为多模态脑肿瘤分割提供了统一框架，在提升全模态分割精度、边界一致性及非完整MRI输入鲁棒性的同时，保持了良好的精度-效率权衡。

脑肿瘤是全球致死率和致残率最高的疾病之一，其中胶质瘤因其高度侵袭性及模糊边界而给临床治疗带来重大挑战。精确的脑肿瘤自动分割是神经外科术前规划及混合现实（Mixed Reality，MR）手术导航系统部署的关键环节。多模态MRI是胶质瘤评估的主要无创成像手段，不同序列提供互补的病变形态和组织特征信息：FLAIR序列对水肿区域更敏感，T1ce序列更适合显示强化肿瘤区域，而T1和T2序列提供基础解剖结构和软组织对比信息。然而，脑肿瘤在形态、边界和内部结构上表现出显著异质性，且临床采集中常因扫描时间受限、方案差异、患者运动或图像质量不足导致模态缺失。

近年来，卷积神经网络（Convolutional Neural Networks，CNNs）和Transformer相继成为医学图像分割研究的主流架构。早期方法如U-Net、3D U-Net和V-Net通过编码器-解码器及跳跃连接架构确立了体积分割的基本范式，但在建模长程依赖方面存在局限。为此，UNETR、Swin UNETR、nnFormer和SegFormer3D等基于Transformer的模型或混合架构被引入，通过分层特征提取和全局上下文建模在复杂肿瘤分割任务中展现出优越性能。然而，现有多模态脑肿瘤分割方法通常在输入层拼接不同MRI序列，缺乏对早期跨模态交互的显式建模；轻量级解码器虽能降低计算成本，但在恢复小强化肿瘤区域和不规则边界等精细结构方面能力不足。此外，现有方法多在完整四模态输入条件下训练推理，而临床环境中模态缺失频繁发生，导致模型部署时性能不稳定。研究人员基于上述分析提出PF-CMNet，旨在联合解决早期跨模态频域建模、解码器细节恢复及缺失模态条件下的知识蒸馏三大关键问题。

PF-CMNet采用编码器-解码器架构，将频率感知跨模态表征学习、渐进式跨尺度细节融合及缺失模态蒸馏整合于统一框架。给定输入四模态3D MRI图像，网络首先通过四阶段分层编码器提取多尺度特征。编码器第一阶段引入CMSFA模块增强浅层跨模态交互，后续阶段逐层下采样提取高层多尺度上下文特征。解码阶段采用PCDF模块进行自上而下分层融合与重建，输出最终3D分割结果。为增强非完整输入条件下的鲁棒性，PF-CMNet进一步采用教师-学生缺失模态蒸馏策略，以全模态条件下的PF-CMNet为教师模型，对学生网络施加特征层和预测层的双重约束。

CMSFA模块采用双路径设计，结合稳定的空间融合分支与基于模态的频率增强分支。路径A为基线空间联合分支，直接对多模态输入应用步长为4的7×7×7三维卷积提取基础局部空间特征；路径B进行模态级频率域增强：先对各模态输入进行独立嵌入，再执行三维实值快速傅里叶变换（3D rFFT），将频谱划分为低、中、高三个非重叠频段，计算各模态在各频段的标准化能量统计，经跨模态多层感知机（MLP）生成自适应缩放张量，调制特定频段的振幅谱，保留原始相位谱后逆变换至空间域。为进一步处理不同局部空间区域的模态依赖差异，设计空间门控分支对频率域增强后的模态特征进行加权，最终通过残差结构与路径A融合输出。该模块仅在编码器初始阶段引入，以最大化早期跨模态互补建模效益并控制额外复杂度。

PCDF解码器采用自上而下的级联结构融合多尺度上下文。所有编码器输出特征经1×1×1卷积和批归一化统一映射至128维通道维度后，通过3D三线性插值上采样和3×3×3卷积模块逐级融合。在最高分辨率阶段引入细节增强分支，包含标准3×3×3卷积路径捕捉边缘梯度变化，以及5×5×5大核深度三维卷积路径扩展局部感受野而不显著增加参数复杂度，增强连续病变轮廓建模能力。两路特征拼接后经1×1×1卷积重组，以残差方式反馈至主特征，最终经特征聚合模块和预测头生成分割结果。

TSD-MS策略中，以收敛的全模态PF-CMNet为参数冻结的教师网络，构建相同架构的学生网络。训练时对学生输入施加随机模态缺失：25%概率保留完整四模态，50%概率随机缺失单一模态，25%概率随机缺失两个模态。蒸馏损失包括：预测层对数几率蒸馏损失，以均方误差约束学生网络输出匹配教师网络预测概率，权重系数0.5；以及特征层蒸馏损失，计算全模态教师与学生CMSFA输出特征的均方误差，权重系数0.1，促使学生在模态缺失时仍能逼近全模态频率感知表征。

实验在MSD Task01_BrainTumour和BraTS2021两个公共数据集上开展，采用官方标准评估协议，统计WT、TC和ET三个肿瘤子区域的Dice系数和HD95。MSD数据集484例按411例训练、73例验证划分；BraTS2021采用1063例训练、188例验证的固定划分。训练使用NVIDIA GeForce RTX 4090 GPU，PyTorch 2.1.0框架和MONAI库，启用自动混合精度。输入经模态归一化后随机裁剪为128×128×128体素块，采用AdamW优化器和多项式学习率调度器，共150轮。缺失模态蒸馏阶段学习率5×10^-5，训练120轮。

定量结果显示，PF-CMNet在MSD数据集平均Dice达84.3%，优于UNETR（71.1%）、TransBTS（69.6%）、TransUNet（64.4%）和SegFormer3D（81.5%）等方法。BraTS2021上平均Dice达88.2%（95%置信区间：86.8%-89.5%），超越SegFormer3D的87.8%和TransBTS的84.9%，与nnU-Net和UNETR相当，且平均HD95最低。缺失模态压力测试中，当FLAIR、T1、T1ce、T2及T1+T2缺失时，PF-CMNet蒸馏学生网络分别达78.64%、82.58%、58.39%、82.03%和79.29%的平均Dice，在w/o FLAIR和w/o T1+T2场景下较最强基线分别提升23.14和22.78个百分点。消融实验表明，PCDF和CMSFA主要提升全模态分割性能，TSD-MS则是改善缺失模态鲁棒性的关键因素。

讨论部分，研究人员指出缺失模态实验为部署导向的压力测试，针对完整输入序列缺失而非所有临床退化采集场景。零掩码表示序列未采集或不可用，但不包括噪声、偏置场、运动伪影等部分退化图像。当前评估仅覆盖四种单模态缺失和一种双模态缺失设置，未涵盖所有15种非空模态组合。w/o T1ce场景仍具挑战性，因强化肿瘤轮廓高度依赖对比增强信息，无法从其余模态完全推断，未来需探索不确定性感知预测或模态补全策略。CMSFA的三频段划分为结构化建模选择而非严格的MRI组织对比物理模型，频率带数量K=3为兼顾可解释性与计算成本的保守设计。边界分析局限于HD95，未来需纳入Surface Dice、边界交并比等更全面指标。当前缺乏注意力图、Grad-CAM等可解释性分析，且仅在公共数据集预定义划分上验证，未包含完全独立的外部多中心测试队列，可能存在乐观偏差。临床部署前仍需外部多中心数据验证、工作流程级神经外系统测试及前瞻性临床适用性评估。

研究结论：本研究提出PF-CMNet用于三维多模态脑肿瘤分割。具体而言，在编码器早期阶段引入CMSFA以显式增强不同MRI模态间的互补表征，并结合PCDF有效提升模型恢复复杂边界和小体积病变的能力。最后，通过设计教师-学生两阶段知识蒸馏机制，将全模态条件下学习的判别性知识转移至缺失模态场景，训练期间对特征层和预测层进行联合约束，增强模型在缺失模态输入条件下的分割稳定性和鲁棒性。MSD脑肿瘤分割任务和BraTS2021数据集上的实验结果表明，所提出的PF-CMNet在两个数据集上均取得了具有竞争力的性能，并在缺失模态条件下表现出更强的鲁棒性。这些发现表明，所提出的框架在分割精度、边界细节恢复、缺失模态鲁棒性和模型级计算实用性之间取得了良好的平衡。然而，在临床应用之前，仍需在独立的多中心临床数据和工作流程级神经外科系统上进行进一步验证。

联系信箱：

粤ICP备09063491号

热点排行