标注质量的重要性：模拟观察者间变异性对深度神经网络自动分割模型性能的影响

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Bioengineering》：Importance of the Quality of Annotation: Impact of Simulated Inter-Observer Variability on Deep Neural Network Automated Segmentation Model Performance

【字体：大中小】 时间：2026年06月18日 来源：Bioengineering 3.7

编辑推荐：

　　背景：基于深度神经网络（DNN）的前列腺分割依赖人工标注，然而标注变异性对模型性能的影响仍缺乏充分研究。方法：研究人员基于PROSTATEx Challenge 2017训练数据集中的119例T2加权磁共振（MR）图像，由专家临床医师手工勾画前列腺轮廓，并施加

背景：基于深度神经网络（DNN）的前列腺分割依赖人工标注，然而标注变异性对模型性能的影响仍缺乏充分研究。方法：研究人员基于PROSTATEx Challenge 2017训练数据集中的119例T2加权磁共振（MR）图像，由专家临床医师手工勾画前列腺轮廓，并施加逐层面的1–10 mm合成径向修改，构建10个经修改的训练数据集及1个未修改的基线数据集。随后利用Auto3DSeg/MONAI训练结构完全一致的SegResNet模型，并采用Dice相似系数（DSC）在未修改的验证集与测试集上进行评估。结果：测试集平均DSC由基线模型的0.917下降至10 mm修改条件下的0.856。以小幅标注扰动（1–5 mm）训练的模型仍可维持至少0.90的DSC，而当扰动超过5 mm后，模型性能显著下降。不同修改标注之间的两两DSC一致性也随着修改幅度增大而降低。结论：前列腺分割模型能够耐受适度的标注变异性，但当变异性超过5 mm时性能明显退化，这凸显了在训练和基准评估基于DNN的自动分割模型时标注质量的重要性。

该文发表于《Bioengineering》，聚焦于医学图像自动分割领域中一个基础但常被忽视的问题，即参考标准（RS，reference standard）标注质量如何影响深度学习模型的真实性能评估。前列腺癌是全球男性常见恶性肿瘤之一，而前列腺MRI分割在手术规划、穿刺活检靶向及放疗靶区勾画中具有关键作用。尽管人工分割仍是当前临床与研究中的常用标准，但该过程不仅耗时，而且容易受到观察者经验、前列腺解剖形态差异以及图像质量等因素影响，因而存在明显的观察者间变异性。既往研究已经指出，即便是专家之间，前列腺或前列腺病灶的勾画仍可能存在差异。与此同时，深度学习分割模型通常以单一人工标注作为“真值”进行训练和验证，因此模型性能在多大程度上受制于标注本身，而非模型结构或训练策略，是一个具有方法学意义的重要问题。基于这一背景，研究人员设计了本研究，系统考察在可控条件下模拟标注扰动后，前列腺MRI自动分割模型的鲁棒性及性能变化规律，从而为医学人工智能（AI，artificial intelligence）模型开发中的标注质量控制提供依据。

在技术方法上，研究采用回顾性探索性设计，数据来源于公开的PROSTATEx Challenge 2017训练集，共纳入119例去标识化T2加权前列腺MRI。由具有前列腺分子影像与MR影像专科训练背景的泌尿科专家依据ESTRO ACROP共识指南完成参考标准分割。之后，研究人员对每个轴位层面的前列腺轮廓施加1–10 mm的合成径向扰动，扰动方式包括向外扩张、向内收缩或保持不变，从而形成10组不同变异水平的数据集，并保留1组未修改基线数据集。所有数据集均采用相同参数的SegResNet卷积神经网络，在Auto3DSeg/MONAI框架中训练300个epoch，并用未修改的验证集和测试集以Dice相似系数（DSC，Dice similarity coefficient）评价性能，同时计算不同合成标注之间的两两DSC并进行双样本t检验。

在研究结果方面，论文首先在“3.1. Data”部分说明了数据构成。研究共纳入119例T2加权前列腺MRI及其对应的专家参考标准标签。其中，每个修改数据集包含72例训练病例，验证集与测试集分别为23例和24例，且两者均使用未修改的参考标准标签。论文同时指出，所选病例缺乏临床与人口学资料，因此研究重点完全放在影像分割标注与模型性能之间的关系上，而非患者特征分层分析。

在“3.2. Model Performance”部分，研究人员展示了模型性能随标注变异幅度增加而下降的总体趋势。具体而言，以未修改参考标准训练得到的基线模型，其测试集平均DSC为0.917 ± 0.033；随着训练标注的合成扰动逐步增大，模型测试性能逐渐下滑，到10 mm扰动时下降至0.856 ± 0.054。这一结果表明，训练标签的质量会直接影响分割模型的泛化精度。不过，这种影响并非线性地在所有扰动水平下同等显现。研究进一步发现，当标注扰动处于1–5 mm范围时，模型仍保持DSC≥0.90，且与基线模型相比差异无统计学意义（p > 0.10）。这一结果提示，模型对小幅度、有限范围内的标注不一致具有一定容忍性。相反，当扰动幅度达到6–10 mm时，与基线模型相比，分割准确性出现统计学显著下降（p < 0.02），说明超过一定阈值后，标注误差会明显削弱模型的学习效果与预测精度。

在“3.3. Pairwise Segmentation Agreement Analysis”部分，研究进一步从标注一致性角度分析了这种人工设定的“观察者间变异性”。为估计不同扰动幅度所代表的标注离散程度，研究人员对每个病例在每一幅度水平下生成20种不同随机修改版本，并计算其两两DSC平均值。结果显示，随着修改幅度增加，不同修改标注之间的一致性显著下降：两两DSC由1 mm时的0.967 ± 0.010下降至10 mm时的0.654 ± 0.043，差异具有高度统计学意义（p < 0.0001）。这一结果证明，所构建的合成扰动确实有效模拟了逐步增强的标注变异性，也为解释模型性能下降提供了量化依据。论文在讨论中进一步指出，当模型性能开始明显恶化时，对应的标注层面两两DSC已低于约0.81，提示这一一致性水平可能对应前列腺MRI自动分割任务中可接受标注波动的边界。

讨论部分围绕这些结果展开了方法学与应用价值层面的总结。研究人员指出，本研究的核心目的在于澄清随机参考标准分割差异对深度学习前列腺分割模型的影响，而结果表明，适度的标注波动并不会显著损害模型表现。由此可见，在训练稳健的自动分割模型时，人工标注未必需要达到极端精细、完全无微小差异的程度。特别是在1–5 mm的扰动范围内，模型性能与基线无显著差异，这意味着类似典型观察者间差异的小范围轮廓变化，不足以实质性破坏模型的分割能力。论文据此提出一个具有实践意义的结论，即≤5 mm的变异阈值可为标注流程优化提供参考：研究或临床团队在构建训练集时，未必需要为消除每一处细微轮廓差异投入过高的人力成本，因为这些细微差异对模型最终性能的收益可能有限。

同时，论文也指出，受控的合成标注变异并非仅具有误差模拟意义，还可能作为一种数据增强策略，用于提升模型对标注噪声的鲁棒性，并减轻大规模训练集构建时的标注负担，从而提高AI模型在临床环境中的开发可行性。不过，研究人员也严格说明了本研究的局限性。首先，样本量相对较小，主要受限于专家标注资源。其次，所采用的合成修改仅限于简单的径向扩张与收缩，尚不能覆盖临床中更复杂的边界形状不规则性或由图像强度变化导致的界面模糊。再次，全部实验仅基于MONAI框架中的SegResNet完成，因此观察到的耐受阈值是否适用于nnU-Net、基于Transformer的分割模型或集成模型，仍需进一步验证。最后，由于参考标准仅由一名专家生成，本研究无法开展多标注者共识构建、标签集成或标注者层级不确定性估计，因此对真实多观察者场景的外推仍应谨慎。

结论部分可译为：研究人员发现，受控的合成标注变异在不超过5 mm时，并不会显著降低前列腺MRI分割性能；而当变异幅度超过5 mm后，则会造成具有统计学意义的性能退化。这些发现提示，在模型开发过程中，中等程度的轮廓变异可能是可容忍的，但在训练和基准测试基于深度神经网络的自动分割模型时，标注质量仍然是决定模型性能的关键因素。

总体而言，这项研究并未单纯追求更高分割精度，而是从参考标准可靠性的角度审视医学影像人工智能研究的根基问题。其价值在于通过可控合成实验明确指出：前列腺MRI自动分割模型对轻中度标注差异具有一定鲁棒性，但这种鲁棒性存在清晰边界，一旦超过约5 mm，模型性能将显著受损。该研究为今后医学图像分割任务中的标注质量控制、训练集构建策略以及模型基准评估框架提供了直接且可操作的证据。

联系信箱：

粤ICP备09063491号

热点排行