《Future Science OA》:Side-level versus patient-level evaluation in four-view mammography classification: a comprehensive benchmark on the CMMD dataset
编辑推荐:
摘要:深度学习在乳腺钼靶图像分类中表现出优异的性能指标,但不一致的评估方法学——特别是结果是按独立侧别水平(side level)还是双侧患者水平(patient level)报告——使得跨研究比较不可靠。本研究旨在同一数据集和统一训练方案下,量化报告性能有多
摘要:深度学习在乳腺钼靶图像分类中表现出优异的性能指标,但不一致的评估方法学——特别是结果是按独立侧别水平(side level)还是双侧患者水平(patient level)报告——使得跨研究比较不可靠。本研究旨在同一数据集和统一训练方案下,量化报告性能有多少是由评估粒度而非模型架构决定的。研究人员在活检确诊的中国乳腺钼靶数据库(Chinese Mammography Database, CMMD; 706例四视图患者)上对六种骨干网络架构(ResNet-18、ResNet-50、EfficientNet-B0、DenseNet-121、ConvNeXt-Tiny、ViT-B/16)交叉三种多视图融合策略(拼接Concatenation、双侧不对称性Bilateral Asymmetry、跨视图空间注意力Cross-view Spatial Attention)进行基准测试,采用五折患者水平分层交叉验证。16种配置完成了二分类恶性诊断及五分类BI-RADS(breast imaging reporting and data system)评估任务。研究人员报告了侧别水平和患者水平的指标;统计分析包括5折Wilcoxon符号秩检验、合并每病例得分的DeLong配对AUC检验及Bootstrap 95%置信区间。结果显示,侧别水平AUC平均超过患者水平AUC 17.5个百分点(范围12.7–22.4),该效应远超CNN骨干间绝对差异(<3个AUC点)。Delong检验解决了约半数CNN-vs-CNN配对比较(p<0.05),尽管效应量小;而5折Wilcoxon检验因p值下限无法解决任何CNN-vs-CNN配对。研究表明,乳腺钼靶分类研究中报告方法学、评估粒度和数据集构成是复合干扰因素。CMMD上报告的绝对性能数值不应外推至患病率数个数量级更低的群体筛查场景;研究应同时报告侧别水平和患者水平指标且采用相互一致的标签/聚合规则,并使用置信区间或配对统计检验而非仅折级Wilcoxon来描述性能。
《Side-level versus patient-level evaluation in four-view mammography classification: a comprehensive benchmark on the CMMD dataset》论文解读
研究背景与立题依据
深度学习辅助乳腺钼靶计算机辅助检测与诊断(computer-aided detection and diagnosis, CAD)系统近年快速发展,文献报道恶性检出受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUC)可超0.95,但此类亮眼数字常掩盖性能度量与报告方式的根本不一致。四视图乳腺摄影采集每位患者含左、右乳腺的头尾位(craniocaudal, CC)与内外斜位(mediolateral oblique, MLO)各一张,由此产生评估粒度(evaluation granularity)的关键歧义:模型应按侧别水平(side level,左右乳腺预测视为独立样本)还是患者水平(patient level,双侧边输出聚合为单患者预测)评价?侧别水平评估更常见因其易实现且有效样本量大,但因双侧预测共享同患者上下文致统计独立性假设违背,对称患者(双侧同病理)贡献两相关预测而非独立信息,非对称患者则模型因正确分类较易侧获奖励即便另一侧重分类错误——这些机制使侧别水平可人为夸大性能指标。目前少有研究系统量化此粒度选择对报告性能的影响,也未将其与模型架构选择的影响对照。为此,研究人员在同一数据集与统一训练流程下系统基准测试六种骨干架构与三种多视图融合策略,分别按侧别水平和患者水平评价,以实证量化评估粒度差距并澄清方法学陷阱。
主要关键技术方法
研究采用公开活检确诊的中国乳腺钼靶数据库(Chinese Mammography Database, CMMD),筛选具完整四视图(L_CC、L_MLO、R_CC、R_MLO)的706例患者。每患者左右乳腺有独立标签,支持侧别及患者水平评估。任务含二分类诊断(非恶性class 0 vs 恶性class 1)与五分类BI-RADS(breast imaging reporting and data system, 1–5类映射为class 0–4)。图像逐图做min–max归一化至[0,1]、缩放至384×384像素并复制为三通道,无ImageNet归一化;数据增强含随机仿射(旋转±10°、平移±5%、缩放0.95–1.05)及独立水平翻转。骨干均加载ImageNet预训练权重并权共享处理四视图,含ResNet-18(512维, 11.2M参数)、ResNet-50(2048维, 23.5M参数)、EfficientNet-B0(1280维, 4.0M参数)、DenseNet-121(1024维, 7.0M参数)、ConvNeXt-Tiny(768维, 28.6M参数)及ViT-B/16(Vision Transformer, 768维, 86.6M参数)。融合策略含:(1)四视图特征拼接(Concatenation);(2)双侧不对称性融合(Bilateral Asymmetry Fusion)——先平均同侧两视图特征再取双侧特征差绝对值,最终拼接四个原始视图特征、同侧均值及不对称向量;(3)跨视图空间注意力(Cross-view Spatial Attention)——在末卷积层前注入多头跨注意力令各视图空间token关注其他视图token(仅适用于可提取中间空间特征的CNN)。分类头为共享双隐层MLP(fused_dim→512→256, ReLU+Dropout)后接左右乳腺独立线性输出,损失为双侧交叉熵之和。训练用AdamW(lr=10?4, weight decay=0.1)、余弦退火调度、梯度裁剪1.0、批大小8、最大50轮早停(验证AUC耐心15轮),不做标签平滑或Mixup。采用五折患者水平分层交叉验证(按病理模式即左右标签元组分层,同患者四视图必同折,训练集内再按80/20分训练与早停验证),所有配置共用折分配。侧别指标将左右预测池化为2N独立样本计算AUC(二分类或 OvR宏平均多分类)、准确率(accuracy)、F1值、敏感度(sensitivity)及特异度(specificity);患者水平标签定义为ypatient=max(yleft, yright)(任一侧恶意为患者恶性),二分类恶性得分为ppatient=max(pleft, pright),据此算患者水平AUC等。统计用5折Wilcoxon符号秩检验、合并每病例得分的DeLong配对AUC检验及Bootstrap 95%CI(B=2000, 按患者重采样)。
研究结果
4.1 配置完成情况(Configuration completion)
计划21种配置(7骨干×3融合)中16种顺利完成两任务;跨视图注意力因架构不兼容失败于EfficientNet-B0与ConvNeXt-Tiny,Swin-Tiny整体失败,说明跨视图空间注意力主要适用于可干净提取层特征的ResNet族。
4.2 诊断:侧别水平结果(Diagnosis: side-level results)
侧别水平二分类恶性诊断中最优为ConvNeXt-Tiny拼接融合(AUC 0.975±0.008),次优为ResNet-50双侧融合(AUC 0.973±0.007)。所有CNN配置侧别AUC介于0.950–0.975,范围极窄。ViT-B/16显著落后(AUC 0.864–0.880),较CNN低约8–10个百分点,印证Vision Transformer需远大于此的医疗影像训练集才可与CNN竞争。
4.3 诊断:患者水平结果(Diagnosis: patient-level results)
患者水平AUC较侧别大幅下降,最优EfficientNet-B0双侧融合仅AUC 0.842(若排CNN侧别结果则垫底)。多数配置患者水平特异度近零(均值0.04–0.22),模型几不识别双侧非恶性患者;敏感度仍极高(>0.93)。纠正初稿中患者水平准确率计算方式(改用any-malignancy判定的患者水平分类而非双侧完全匹配),患者水平准确率均值约0.93高于侧别约0.88,系此富集队列中"总预测至少一侧恶性"的平凡分类器已达约0.96准确率所致。
4.4 侧别水平vs患者水平差距(The side-level vs. patient-level gap)
所有模型配置患者水平AUC均远低于侧别水平,平均AUC差Δ=+0.175(17.5个百分点),范围+0.127(EfficientNet-B0双侧)至+0.224(ConvNeXt-Tiny拼接)。该评估粒度造成之差距远超CNN架构间整个AUC范围(<~0.03)。侧别与患者水平AUC针对不同标签向量(2N侧vs N患者)、不同类先验(~48% vs 96.2%恶性)与不同样本单元,17.5点差距应理解为同训练模型切换报告协议所观测之经验性能差而非单方偏差测量;其绝对值受数据集患病率影响,但"侧别与患者水平给出实质不同头条数字、须明示报告哪种粒度"之定性发现具普适性。
4.5 骨干与融合策略比较(Backbone and fusion comparison)
三种融合策略侧别AUC均值接近:拼接0.948、双侧0.950、跨视图0.936,双侧不对称略优(+0.2% vs拼接),跨视图注意力微劣或因参增而训练数据不足。按骨干平均:ResNet-50(0.966)>EfficientNet-B0(0.965)>ConvNeXt-Tiny(0.962)>ResNet-18(0.960)>DenseNet-121(0.959)>>ViT-B/16(0.874),前五名CNN相差不超0.7% AUC。
4.6 交叉折稳定性(Cross-fold stability)
同配置五折AUC分布显示明显折间波动,如ConvNeXt-Tiny双侧侧别AUC从fold 1之0.989跌至fold 4之0.833(~15%摆动),强调单 train/test 拆分评估不可靠及交叉验证之必要。
4.7 统计显著性(Statistical significance)
5折Wilcoxon符号秩检验无任何两配置达p<0.05(5折最小可达p=0.0625),最接近为CNN vs ViT-B/16对(p=0.0625)。合并侧别每病例得分做DeLong配对AUC检验后,120对中77对p<0.05、56对p<0.001,全部39组CNN-vs-ViT高度显著(中位p<10?12);78组CNN-vs-CNN中38组(49%)p<0.05(中位p=0.062),表现差距大者(如DenseNet-121拼接 vs ResNet-50双侧,AUC差0.022–0.030)可达p低至4.6×10?10,相邻性能CNN不可分。侧别Bootstrap 95%CI窄(宽约0.014–0.020),患者水平CI宽(约0.10–0.18)反映此数据规模下患者水平估计可靠性较低。
4.8 BI-RADS评估(BI-RADS assessment)
侧别五分类BI-RADS最佳为DenseNet-121跨视图(AUC 0.846±0.015),低于二分类诊断反映严重类别不平衡与多类难度。采用文献常用聚合规则(患者标签=max(yleft,yright),患者概率=两侧概率向量均值)时所有配置患者水品宏AUC恰为0.000——非模型性能而为指标/聚合规则不兼容之产物:98.9%患者双侧BI-RADS不同,概率均值抹除单侧判别信号致预测类与真值永不匹配。此现象泛存于任意双侧多类标签+max标签+概率均值组合,研究人员提出三类替代聚合方案:(A)先逐侧取argmax再按标签空间取max(决策级max-class);(B)概率向量按元素取max(per-class max-pooling)后重归一化算OvR AUC;(C)直接以ypatient=max(yleft,yright)为优化目标加患者级分类头训练(需重训,对BI-RADS可用序次回归ordinal regression)。
4.9 每病例错误分析(Per-case error analysis)
706患者中356例(50.4%)被全部16配置正确分类,仅7例(1.0%)全错,其余343例部分模型对错不一。CNN间误分类集Jaccard相似度均值0.42(范围0.31–0.55),CNN-vs-ViT均值仅0.29(范围0.21–0.39),表明CNN犯系统性相似错误而ViT-B/16失效患者群部分不同,暗示异质集成潜力。侧别错误率随BI-RADS临床严重程度递减:恶性侧BI-RADS 2错误率22.9%、BI-RADS 3为17.5%、BI-RADS 4仅8.7%;良性侧BI-RADS 0(正常对侧)错误率低(9.3%),少数高BI-RADS(1–3)良性侧误分率38–48%。27例双侧良性患者无一被全部模型正确分类,均值错误率88.4%(平均每模型错14.1/16),其中4例被每模型错分;恶性患者均值错误率仅12.9%,52.4%被全对。诊断任务错误与BI-RADS任务错误总体一致率60.3%——诊断错时BI-RADS亦错占84.9%,诊断对时BI-RADS仍有44.3%错,确认BI-RADS为严格更难任务。
讨论与结论翻译总结
研究人员指出评估粒度是乳腺钼靶分类文献中最重要之混淆因子:CMMD上侧别与患者水平AUC差(平均17.5点)远超CNN架构差异(<3点),若不标准化评估协议跨研究比较不可靠。侧别AUC膨胀源于三因素——双侧预测统计不独立、对称患者双倍计数、非对称患者部分正确获奖励。建议未来研究同时报告且明确区分两种粒度指标,患者水平须用与临床问题一致的标签/聚合规则对。CNN架构复杂度在此规模数据上收益递减(ResNet-18与最佳CNN差<0.7%侧别AUC),ViT-B/16大幅落后符合小医疗数据集Transformer需大数据之已知结论;双侧不对称融合有微小但稳定增益尤见于患者水平。概率均值聚合不适用于双侧不对称之多类BI-RADS患者水平评价,文内给出三替代方案。CMMD为活检确诊富集队列(患者水平96.2%恶性),绝对性能数不应外推至人群筛查(患病率~0.5%);应报特异度及按类指标,最少五折交叉验证与AUC差异之置信区间或DeLong检验。研究结论:评估方法学(粒度选择、标签/聚合一致性、数据集构成)比模型架构选择对报告性能影响更大;各CNN骨干AUC绝对差小(≤0.030),5折Wilcoxon不能分辨CNN-vs-CNN而DeLong可解约半数;ViT-B/16较CNN低约9% AUC且错分患者群互补;标准BI-RADS概率均值聚合遇双侧异标签致退化解,须换用决策级max或概率max-pooling或直训患者头;交叉验证必要且应报双侧粒度指标与置信区间;CMMD富集队列绝对数不表征筛查场景临床效用。