联邦学习用于乳腺癌分类：聚合方法的比较研究

《Information》：Federated Learning for Breast Cancer Classification: A Comparative Study of Aggregation Methods

【字体：大中小】 时间：2026年06月10日 来源：Information 2.9

编辑推荐：

　　联邦学习（Federated Learning, FL）使医疗机构能够在保护患者数据隐私的前提下协作训练机器学习模型，因而非常适用于隐私敏感的医学影像任务。本研究探讨了在五个模拟客户端上使用MobileNetV2进行联邦乳腺癌分类时，数据异构性对不同聚合方法的

联邦学习（Federated Learning, FL）使医疗机构能够在保护患者数据隐私的前提下协作训练机器学习模型，因而非常适用于隐私敏感的医学影像任务。本研究探讨了在五个模拟客户端上使用MobileNetV2进行联邦乳腺癌分类时，数据异构性对不同聚合方法的影响。研究在均衡、不均衡、非齐次及非独立同分布（non-IID）等多种数据分布下，评估了五种聚合方法——FedAvg、FedProx、FedNova、FedDyn和SCAFFOLD。结果表明，聚合性能受数据分布显著影响：FedAvg在均衡设置下表现优异，但在异构数据中表现不佳；而FedProx在极端non-IID情况下展现出鲁棒性，准确率最高可达98.466%。FedDyn和SCAFFOLD也表现出一定适应性，但在严重类别不均衡场景中一致性较差。除准确率外，研究人员还分析了极端non-IID条件下召回率（Recall）及鲁棒性，以评估癌症检测的临床可靠性。这些结果强调了在有效的医疗联邦学习中选用合适聚合方法的必要性。

论文解读：联邦学习用于乳腺癌分类之聚合方法比较研究

该论文题为"Federated Learning for Breast Cancer Classification: A Comparative Study of Aggregation Methods"，发表于《Information》期刊。

一、研究背景与立题依据

乳腺癌是全球女性最常见的癌症之一，早期准确诊断对提高生存率至关重要，乳腺X线摄影（Mammography）是主流筛查手段。深度卷积神经网络（Convolutional Neural Network, CNN）尤其是MobileNetV2在医学图像分类中表现良好，但传统集中式深度学习需将多机构患者数据汇聚至单一服务器，面临《健康保险可移植性与责任法案》（HIPAA）、《通用数据保护条例》（GDPR）等隐私法规限制、跨院数据异构性（不同成像协议、设备、人群）及大数据传输存储成本高等问题。联邦学习（Federated Learning, FL）允许各客户端本地训练并仅上传模型参数至中心服务器进行聚合，从机制上规避原始数据传出，适合跨院协作。然而FL在医疗影像中面临统计异质性——即各客户端数据为非独立同分布（non-IID, non-Independent and Identically Distributed）、类别不均衡及客户端漂移（Client Drift）等挑战，基础FedAvg在non-IID下易发散。现有文献多在较理想或轻度异构设置下评测有限种聚合策略且偏重整体准确率，缺乏对极端不均衡、多源non-IID及客户端特有图像失真组合场景下各聚合方法鲁棒性及临床关键指标（如恶性灶召回率Recall）的系统比较，因此研究人员设计并开展了此项对照研究。

二、主要关键技术方法

研究人员采用五个公开乳腺X线摄影数据集模拟跨孤岛（Cross-Silo）联邦环境：DDSM（Digital Database for Screening Mammography）、INbreast全野数字乳腺摄影数据库（Full-field Digital Mammography Database）、MIAS（Mammographic Image Analysis Society dataset）、CLAHE增强版DDSM及RSNA（Radiological Society of North America）乳腺癌筛查数据集。所有图像统一缩放至224×224像素、灰度转RGB、像素值归一化至[0,1]，辅以旋转/翻转/缩放/对比度等增广及部分客户端CLAHE对比度增强。基底模型为ImageNet预训练MobileNetV2（轻量级CNN，基于深度可分离卷积Depthwise Separable Convolution、倒残差Inverted Residuals及线性瓶颈Linear Bottlenecks），五客户端各持本地私有训练集（70%训练、10%验证、20%测试），每轮本地用Adam优化器（学习率0.001、批大小32）以交叉熵损失训练，Configuration 1训练20轮余下配置100轮，中心服务器分别实现并比对FedAvg、FedProx（近端项系数μ）、FedNova（规范化局部更新步数再加权）、FedDyn（动态正则化对齐局部与全局目标）、SCAFFOLD（控制变量Control Variate矫正客户端漂移）五种聚合算法。设计五种渐进难度数据分布场景：Configuration 1（IID均衡）、Configuration 2（良性类主导的不均衡）、Configuration 3（多源non-IID含不同类别比）、Configuration 4（高度不均衡+多源non-IID+非齐次）、Configuration 5（同Configuration 4数据分布加各客户端独有图像失真如随机旋转/模糊/仿射剪切/饱和度变化等）。评估指标含准确率（Accuracy）、损失（Loss）、召回率（Recall/Sensitivity）、特异度（Specificity）、精确率（Precision）及F1分数，重点关注临床意义重大的恶性类Recall与F1。

三、研究结果

5.1. Aggregation Methods Comparison

5.1.1. Configuration 1: Results of IID and Class-Balanced Setting

在IID均衡场景下FedAvg取得最低损失、最高准确率（约99.4%）及最高Recall（0.994），SCAFFOLD与FedDyn次之；FedProx与FedNova因引入面向non-IID的正则化/规范化反而在均衡数据中不必要地约束更新，Recall与F1略低。表明简单加权平均FedAvg最适合完全均衡联邦环境。

5.1.2. Configuration 2: Results of Imbalanced Data Setting

良性主导不均衡下FedAvg仍获最高准确率（99.22%）与较高Recall（0.9986）；FedProx/FedNova/FedDyn/SCAFFOLD达Recall≥0.999但特异度与精确率降低（假阳性增多），其中SCAFFOLD在保持完美Recall(1.000)时特异度(0.8783)与F1(0.8681)优于其余改进算法，体现敏感性与总体性能间权衡。

5.1.3. Configuration 3: Results of Non-IID Multi-Source, Imbalanced Data Setting

多源non-IID不均衡下FedAvg与FedNova准确率仅约65%、Recall极低（0.009与0.030），几近完全漏检恶性病例；FedProx凭借近端正则抑制客户端漂移，准确率86.62%、Recall 0.773、F1 0.803为最优；FedDyn精确率与特异度高（0.966、0.989）但Recall仅0.591；SCAFFOLD Recall 0.623但假阳略多。说明专门应对异构图布的算法在non-IID下关键。

5.1.4. Configuration 4: Results of Highly Imbalanced, Non-Homogeneous, and Non-IID Multi-Source Data Setting

高度不均衡+多源non-IID下FedAvg/FedNova准确率约97.6%但Recall仅0.392（大量恶性漏诊）；FedProx Recall升至0.567、F1 0.712；FedDyn Recall 0.823、F1最高0.900；SCAFFOLD Recall 0.700、精确率与特异度均1.000。FedDyn与SCAFFOLD在此严苛设定综合表现最佳，强调仅靠准确率评判临床可靠性不足。

5.1.5. Configuration 5: Results of Non-IID Multi-Source Data with Client Specific Image Distortions

叠加客户端特有图像失真后FedAvg/FedNova/SCAFFOLD Recall与Precision降至0（全预测为良性），虽表观准确率~96%实为多数类偏向崩溃；FedProx是唯一保持有效恶性检测者——准确率98.47%、Recall 0.604、F1 0.753、特异度与精确率1.000，证明其近端项能抵抗极端异构与特征不一致引发的客户端漂移；FedDyn仅有微弱改善。

5.2. Performance Summary Across All Configurations

综述五场景：均衡时FedAvg优；引入不均衡后具近端/矫正机制的FedProx/FedDyn/SCAFFOLD提升恶性Recall；严重non-IID与不均衡并存时FedAvg/FedNova显著退化，FedProx最稳定，FedDyn/SCAFFOLD在中等异构尚可但极端与图像失真联用时效能波动。高准确率可掩盖极低恶性Recall，临床部署须监控Recall与F1。MobileNetV2轻量架构有助于降低通信与计算负担。

5.3. Best Performing Aggregation Methods

综合各配置FedProx最具一致性与适应性（Recall介于0.567–1.000，极端失真下准确率98.47%），为实际跨院异构数据联邦乳腺癌分类首选；SCAFFOLD与FedDyn在中等异构环境具竞争力；FedAvg仅适用于均衡情形。

四、讨论与结论翻译（浓缩自Conclusion章节）

研究人员通过在二进制乳腺X线影像分类任务中设计五种渐趋真实的联邦配置（均衡→不均衡→多源非齐次→高度non-IID及异构→加客户端视觉失真），对比五种聚合算法，确定FedProx因近端项惩罚局部模型偏离全局参数从而减轻客户端漂移、稳定更新，在non-IID及不均衡场景优于他法，极端条件下准确率可达98.47%；SCAFFOLD与FedDyn在中等异构环境具竞争力；FedAvg适于均衡数据。本研究通过模拟真实跨院挑战（不同库规模、类别不均衡、视觉差异）为分散式医学影像分析中联邦模型适应性评估奠定基础。局限含仿真五客户端规模未涉及大规模异步参与及带宽受限等，未来拟拓展至更大规模环境、个性化联邦学习（Personalized Federated Learning）、多模态数据融合并引入安全聚合（Secure Aggregation）/差分隐私（Differential Privacy）及可解释人工智能（Explainable AI, XAI）。

热点排行