垂体腺瘤MRI中Knosp分级的自动化评估：基于规则方法与基于机器学习(Machine Learning)方法的实验比较

《Brain and Spine》：Automated Assessment of Knosp Grade From Pituitary Adenoma MRI: Experimental Comparison of a Rule-based and a Machine Learning-based Approach

【字体：大中小】 时间：2026年06月03日 来源：Brain and Spine 2.5

编辑推荐：

　　背景(Background)：Knosp分级系统被广泛用于表征垂体腺瘤(Pituitary Adenoma, PA)的鞍旁扩展及分层海绵窦(Cavernous Sinus, CS)侵犯风险、全切率(Gross Total Resection, GTR)和内分秘

背景(Background)：Knosp分级系统被广泛用于表征垂体腺瘤(Pituitary Adenoma, PA)的鞍旁扩展及分层海绵窦(Cavernous Sinus, CS)侵犯风险、全切率(Gross Total Resection, GTR)和内分秘缓解率(Endocrinological Remission, ER)，但其评估依赖专家对磁共振成像(Magnetic Resonance Imaging, MRI)的解读，观察者间信度有限。目的(Objective)：开发并比较两种从术前MRI自动评估Knosp分级的方法——一种模拟原始几何算法的基于规则方法和一种统计深度学习(Deep Learning)方法——并评价其准确性及分层CS侵犯、GTR和ER的能力。方法(Methods)：几何算法采用手动或自动生成的肿瘤及颈内动脉(Internal Carotid Artery, ICA)分割；并行训练基于394例标注MRI扫描的深度学习分类器。两种方法在99例独立验证队列上评估，另由两名专家独立分级以评估人观察者间可靠性。结果(Results)：人类评分者准确率分别为64.65%(κ=0.538)和60.10%(κ=0.463)；几何法使用手动分割准确率44.95%(κ=0.270)，自动分割35.35%(κ=0.164)；深度学习估计器准确率41.92%(κ=0.234)。自动化方法判定的更高Knosp分级与CS侵犯风险增加及GTR可能性降低显著相关(p<0.05)。结论(Conclusion)：自动化方法可辅助Knosp分级评估，但目前精度尚不足以独立用于临床。

论文解读：垂体腺瘤MRI中Knosp分级的自动化评估——基于规则与基于机器学习方法的实验比较

该研究由Martin ?erny、Filip Oplt、Josef Malík等来自捷克布拉格军事大学医院神经外科及神经肿瘤科的研究团队完成，发表于《Brain and Spine》。

研究背景与立项依据

垂体腺瘤(Pituitary Adenoma, PA)是鞍区常见良性肿瘤，经鼻蝶内镜手术是其首选治疗方式，但鞍旁侵袭性生长特别是海绵窦(Cavernous Sinus, CS)侵犯会增加手术并发症及肿瘤残留风险。Knosp分级自1993年提出，依据冠状位增强T₁加权MRI上肿瘤超越颈内动脉(Internal Carotid Artery, ICA)内侧切线、中心连线及外侧切线的程度，将PA分为0～IV级（Micko等进一步将III级细分为IIIa与IIIb），用于预测CS侵犯、全切率(Gross Total Resection, GTR)及内分泌缓解率(Endocrinological Remission, ER)。然而Knosp分级依赖放射科医师主观判读二维层面，观察者间一致性(Kappa值)偏低，且部分中心引入苏黎世垂体瘤评分(Zurich Pituitary Score, ZPS)试图改善一致性。鉴于此，研究人员拟开发并对比两种基于术前MRI的自动化Knosp分级方法——几何规则算法与深度学习(Deep Learning, DL)直接分类器，验证其准确性及对临床结局的分层能力，探讨自动化工具辅助影像评估的可行性。

主要技术方法与数据来源

研究人员回顾性收集单中心行原发性经鼻蝶切除PA患者的术前MRI数据集（共493例，训练集394例、独立验证集99例），每例均具备冠状位对比增强T₁加权MRI及肿瘤/ICA/正常腺体的体素级分割掩码。CS侵犯与GTR取自前瞻性数据库，功能性腺瘤的ER根据激素类型按标准定义回溯判定。金标准Knosp分级由1名15年资历神经放射学专家独立对左右侧分别判定；另由2名不同资历专家（神经外科与放射科）在验证集独立分级计算人观察者间可靠性。几何规则法基于肿瘤及ICA分割掩码，通过k-means聚类识别同侧C3/C4段ICA截面，构建凸包求内外切线及中心连线，依肿瘤像素相对位置判定最大Knosp分级；分别测试手动与自动分割输入效果。DL方法以修改版ResNet18（替换全局平均池化及双全连接层输出6类Softmax概率）在394例标注扫描上微调训练，采用旋转/平移/缩放数据增强，输入左侧图像预测，右侧通过镜像输入获得；早停法控制训练。统计分析计算准确率、Cohen's κ、允许±1级容差准确率(1-grade tolerance accuracy, 1gta)及Spearman秩相关评估CS侵犯、GTR、ER分层能力。

研究结果

Deep learning-based direct estimator training

研究人员用NVIDIA Tesla V100 GPU训练改良ResNet18模型，第52轮epoch达最佳，早停触发，耗时约6分13秒。

Performance of individual methods

人类评分者准确率64.65%(κ=0.538, 1gta=91.92%)与60.10%(κ=0.463, 1gta=87.88%)。几何规则法：手动分割输入准确率44.95%(κ=0.270, 1gta=86.87%)，自动分割输入降至35.35%(κ=0.164, 1gta=75.25%)。DL直接估计器准确率41.92%(κ=0.234, 1gta=78.79%)。结论：即便专家间Knosp分级一致性中等，两种自动化方法整体精确分级准确率低于人类，但在±1级容差下几何规则法接近人类水平；DL方法略逊于几何规则法。

Risk stratification

各方法所判定的更高Knosp分级均与CS侵犯风险升高显著相关（金标准及几何手动分割、DL估计器、两名人类评分者p<0.05，自动分割边缘显著p=0.054）；更高分级均与GTR概率下降显著相关（所有方法p<0.05）；仅评分者#2的Knosp分级与ER呈显著负相关(p=0.037)。结论：尽管绝对分级精度不足，自动化方法所得Knosp分级仍可复现金标准分级对CS侵犯及GTR的临床分层价值。

讨论与结论翻译

本研究比较了两种垂体腺瘤Knosp分级自动化评估方法的准确性与可靠性。结果表明自动化工具可减少观察者间变异、提高评估一致性，但当前达到的精度仍不足以支持临床单独使用。基于规则的几何算法在具备高质量分割前提下较机器学习方法展现更高准确率与风险分层能力，这可能与训练集规模有限有关，未来更大样本和多中心数据或可使数据驱动的DL方法超越规则系统；而几何法受限于预定义规则无法随数据自适应改进。需注意Knosp低分级(0–II)与病理证实CS侵犯并不完全一致，此影像学—病理脱节亦影响自动化方法在低级别肿瘤的表现。研究局限性含单中心回顾性设计、金标准仅由单一评分者给出、分割质量影响规则法性能、DL架构较简单(ResNet18)及ER数据回顾收集可能引入偏倚。结论：自动化方法可支持Knosp分级评估，其中编码专家知识的几何规则法优于DL直接估计器，但两者均未达到独立临床使用所需精度；未来更大样本与优化模型可能提升DL表现，可考虑混合方法。此类工具应视为辅助手段，补充而非替代专家在复杂神经外科规划中的判断。

热点排行