《Journal of Composites Science》:Fire-Retardant and Tribological Performance of Painted Ultem 9085 Polymer–Coating Composites Produced via Fused Deposition Modeling
编辑推荐:
用于视神经组织学轴突自动定量的机器学习方法已成为实验性青光眼模型中轴突损伤客观评估的工具,但其在独立数据集上的泛化能力尚不明确。本研究遵循PRISMA-ScR(Preferred Reporting Items for Systematic Reviews a
用于视神经组织学轴突自动定量的机器学习方法已成为实验性青光眼模型中轴突损伤客观评估的工具,但其在独立数据集上的泛化能力尚不明确。本研究遵循PRISMA-ScR(Preferred Reporting Items for Systematic Reviews and Meta-Analyses extension for Scoping Reviews,系统性综述首选报告项目扩展—范围综述)指南进行范围综述,评估公开可用模型在新数据集上的表现。检索PubMed、EMBASE、Scopus和Cochrane CENTRAL(2000–2025年)。两名评审员筛选研究并提取模型特征与性能指标。研究人员将三种模型(AxoNet、AxonDeepSeg和AxoNet 2.0)在含44张图像及6941条轴突的大鼠视神经数据集,以及含74张全横截面的小鼠视神经数据集上进行独立验证。从2036条记录中,符合纳入标准的4篇文献描述了3种深度学习模型,报道的模型预测与参考计数间相关系数为0.959–0.99。在大鼠数据集上,性能相关性下降(r = 0.831–0.907),精确率(precision)保持较高(>0.94),但召回率(recall)低(0.18–0.27),Dice系数为0.29–0.40。在小鼠数据集上,相关性进一步降低(r = 0.57–0.74),模型排名发生变化,反映了域偏移(domain shift)及尺度依赖效应。研究结果表明模型在内部研究中表现良好,但对独立数据集泛化性降低,强调需建立标准化验证数据集和多中心测试。
基于范围综述与独立验证评估深度学习模型在视神经组织学轴突量化中泛化性的研究解读
该论文发表于《Journal of Composites Science》。目前视网膜神经节细胞(Retinal Ganglion Cell, RGC)丢失是青光眼等视神经病变的标志性病理特征,视神经轴突的组织学定量是评估实验模型中神经保护干预效果的直接手段。然而人工轴突计数工作量大、存在观察者间差异,且半自动工具仍需大量人工参与与参数调优。尽管深度学习(Deep Learning, DL)已在数字病理学中取得进展,但用于视神经组织学轴突量化的机器学习方法研究较少,各研究采用不同模型架构、物种、染色方法和结局指标,异质性强难以比较,且模型在原训练环境之外应用于独立数据时的泛化能力基本未经检验。域偏移(Domain Shift)——即模型遇到与训练集数据分布不同的数据——是医学影像中公认的挑战,会显著降低性能。为此,研究人员通过开展范围综述识别已发表的可用于视神经轴突量化的深度学习模型,并在实验室自建的大鼠及小鼠视神经石蜡切片数据集上对公开可用模型进行独立外部验证,以量化其泛化性缺口(Generalizability Gap),明确评估尺度(Evaluation Scale)和指标选择对性能判读的影响,为后续模型开发与标准化验证提供依据。
主要关键技术方法
研究人员首先按PRISMA-ScR指南开展范围综述,检索PubMed、EMBASE、Scopus和Cochrane CENTRAL(2000–2025年),纳入应用机器学习对人或动物视神经/轴突/髓鞘等进行组织学图像量化、分割或形态测量分析并报告定量性能指标的原始研究,由两名评审员独立筛选与提取数据。独立验证部分使用两个外部数据集:异系繁殖大鼠(Brown Norway及outbred rat)视神经过苯二胺(Paraphenylenediamine, PPD)染色横截面256×256像素子图像44张(含6941条手动标注轴突),以及档案来源BXD小鼠(Mouse, BXD recombinant inbred strain) PPD染色完整视神经横截面74张(每根含约10,000–45,000条手动标注轴突)。对三个公开可用模型——AxoNet(使用final_resampled_3-22-2020.hdf5检查点)、AxonDeepSeg(使用model_seg_generalist_BF_light配置,替代未公开的AxonDeep)、AxoNet 2.0(标准U-Net架构)——按原版实现及默认参数不做微调直接推理。计数水平指标计算Pearson相关系数(r)、Spearman秩相关系数(ρ)、Lin一致性相关系数(Lin's Concordance Correlation Coefficient, CCC)、平均绝对误差(Mean Absolute Error, MAE)、均方根误差(Root Mean Squared Error, RMSE)、系统偏差(Bias)及Bland–Altman 95%一致性界限(Limits of Agreement, LoA);像素水平计算Dice系数、交并比(Intersection over Union, IoU)、精确率(Precision)和召回率(Recall)。置信区间采用偏差校正加速(Bias-Corrected and Accelerated, BCa)自助法(10,000次重抽样)估计,另做直方图匹配(Histogram Matching)敏感性分析。
3. Results(结果)
3.1. Scoping Review(范围综述)
经初检剔除重复后获2036篇独特记录,39篇进入全文审读,最终4篇文献描述3种不同深度学习模型(AxoNet、AxonDeep、AxoNet 2.0)符合纳入标准。原报道各模型预测轴突数与人工参考计数Pearson r为0.959–0.99,部分模型报道Dice系数为0.81。综述确认现有研究均未报告与图像块尺寸无关的计数指标(如平均绝对百分比误差Mean Absolute Percentage Error, MAPE或相对偏差)。
3.2. Independent Validation Results on Outbred Rat Optic Nerve(远交系大鼠视神经独立验证结果)
在未曾参与任何模型训练的44张大鼠图像块上测试,三模型与金标准仍呈正相关但相关系数较原文献降低(AxoNet 2.0: r=0.907;AxonDeepSeg: r=0.899;AxoNet: r=0.831)。像素级分割显示精确率高(>0.94)而召回率低(0.18–0.27),Dice系数降至0.29–0.40,表明模型倾向保守漏检而非误检。Lin's CCC大幅低于Pearson r且Bland–Altman分析示系统性低估(负偏差?63.2至?113.7轴突/块),说明Pearson相关高估了实际一致性。模型排名与原文献不同,AxoNet 2.0泛化降幅最小。
3.3. Independent Validation Results on BXD Mouse Optic Nerve(BXD小鼠视神经独立验证结果)
在全横截面小鼠组织(n=74)验证中,相关性进一步下降至r=0.568–0.741,AxonDeepSeg出现显著系统性低估(偏差?5082轴突),AxoNet与AxoNet 2.0呈轻微高估。模型排名再次改变(AxoNet表现相对最优),反映域偏移叠加评估尺度(整根神经vs小图像块)对性能解读的综合影响,且小鼠数据无逐块标注故无法回溯至原评估尺度作直接比对。
3.4. Tile-Size Dependency of Reported Metrics(图像块尺寸对报道指标的影响)
所有已发表计数性能指标均依赖评价所用图像块尺寸;小图像块限制单块轴突数范围可人为抬高相关系数。全横截面评估因计数范围极宽使r被系统性压低,因此跨研究或跨尺度直接比较相关性具误导性。现有文献缺失MAPE与相对偏差报告,阻碍尺度无关的性能对比。
4. Discussion(讨论总结)
独立验证揭示已发表深度学习轴突量化模型存在泛化性缺口,原内部分布测试r>0.96而外部验证r降至0.831–0.907(大鼠)和0.57–0.74(小鼠),分割Dice由0.81跌至0.29–0.40。域偏移源自组织制备、染色、成像参数及物种差异,简单直方图匹配不能完全消除。评估尺度混淆真实性能变化与度量伪影。高Pearson相关伴低Dice/Recall说明模型系统性欠分割(Under-segmentation)轴突但仍维持计数排序,仅用相关系数会掩盖一致性偏差,应联合报告CCC、Bland–Altman偏差及像素级指标。AxoNet 2.0在同物种外部数据上衰减最小,暗示更优训练策略可提升鲁棒性。研究局限含单一外部实验室数据源(虽补充小鼠数据集)、未涵盖其他物种/染色、未做微调及无法直验AxonDeep。未来需多中心验证、共享基准数据集、强制报告tile无关指标(MAPE、相对偏差)及公开模型代码,探索域适应(Domain Adaptation)与迁移学习(Transfer Learning)以改善跨实验室适用性。
5. Conclusions(结论译文)
当前用于视神经轴突组织学的深度学习模型在内部评估中与专家参考计数高度一致(报道相关系数>0.96),但独立验证显示将其应用于新数据集时存在明显性能衰减——大鼠数据相关系数为0.831–0.907,分割Dice系数为0.29–0.40;在档案小鼠视神经组织上相关系数进一步降至0.57–0.74。此泛化性缺口凸显模型广泛采用前须开展外部验证。受测模型中AxoNet 2.0在独立验证中表现最稳定。后续工作应优先推进多中心验证研究、标准化基准数据集建设、模型实现公开发布及域适应技术开发,以提升模型跨实验室与跨组织制备条件的泛化能力。