基于多阶段CNN的3D CT与2D X射线实时配准研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Assisted Surgery》：Toward real-time alignment of 3D CT and 2D X-ray with multi-stage CNNs

【字体：大中小】 时间：2026年06月18日 来源：Computer Assisted Surgery 1.9

编辑推荐：

　　2D X射线成像广泛应用于图像引导干预中，以提供患者解剖结构和介入器械的实时可视化。然而，由于缺乏深度信息和软组织对比度，术中X射线常辅以高分辨率术前3D计算机断层扫描（CT）。临床医生必须将3D术前信息与2D可视化进行手动配准，这增加了认知负荷，促使对自动化

2D X射线成像广泛应用于图像引导干预中，以提供患者解剖结构和介入器械的实时可视化。然而，由于缺乏深度信息和软组织对比度，术中X射线常辅以高分辨率术前3D计算机断层扫描（CT）。临床医生必须将3D术前信息与2D可视化进行手动配准，这增加了认知负荷，促使对自动化解决方案的需求。传统上，该配准任务被表述为估计X射线源相对于CT扫描的位置。最先进的3D/2D配准方法使用合成的CT到X射线投影进行训练，但这些方法仍需要手动标注，并采用耗时的优化过程，限制了其在实时图像引导中的部署。在本文中，研究人员提出了LXPose（实时X射线姿态估计），一种用于实时图像引导的快速多阶段3D/2D配准框架。具体而言，研究人员引入了一个高效的两阶段CNN，有效绕过了缓慢的优化以实现快速推理。关键的是，研究人员通过引入自动化的地标提取策略，消除了对任何手动标注的需求。最后，研究人员使用投影损失训练LXPose以实现高精度，并首次应用广泛的数据增强来缩小合成训练X射线与真实测试数据之间的域差距。研究人员在两个不同解剖区域的数据集上展示了LXPose，其性能与最先进方法相当，同时将推理时间减少两个数量级，从几秒降至20毫秒。总体而言，研究结果显示了LXPose在实时临床部署中的潜力。代码可在https://github.com/fedefacente/LXPose获取。

**研究背景与问题**
微创介入手术日益依赖术中成像引导，X射线透视（fluoroscopy）因其实时成像能力而被广泛采用。然而，X射线是3D解剖结构的2D投影，缺乏深度信息，且软组织对比度差。术前3D计算机断层扫描（CT）提供高分辨率体积信息，但临床医生需在脑中手动将3D CT信息与术中2D X射线对齐，增加认知负荷，易导致操作误差。传统3D/2D配准方法基于优化策略，计算耗时长（数秒），无法满足临床实时反馈需求（<40 ms帧级实时或<200 ms可视化实时）。现有深度学习方法或依赖手动标注，或采用迭代优化步骤，仍难以兼顾速度与精度。为克服上述瓶颈，研究人员旨在开发一种无需手动标注、可实时运行且精度接近最先进水平的3D/2D配准方法。该研究发表在《Computer Assisted Surgery》。

**主要关键技术方法**
研究人员提出LXPose（实时X射线姿态估计）框架，核心为两阶段级联卷积神经网络（CNN）。第一阶段（CNN1，姿态回归器）从输入X射线图像直接回归旋转轴角向量和平移参数，输出初始姿态P_init。第二阶段（CNN2，配准模块）接收初始姿态生成的数字重建放射影像（DRR）与输入X射线，预测残差变换P_Δ，组合后得到最终姿态P?=P_ΔP_init。训练使用合成DRR，借助diffDRR（可微分DRR渲染器）在线生成。为消除手动标注，采用自动地标提取：利用TotalSegmentator或强度阈值分割解剖结构，三维表面网格重建（Marching cubes），最远点采样（FPS）提取均匀表面点作为3D地标。损失函数为平均投影距离（mPD），计算3D地标在预测与真实姿态下2D投影的欧氏距离均值。为处理术中内参变化，采用单应性变换（homography）将真实X射线归一化至训练固定内参空间。数据增强策略包括高斯噪声、高斯模糊、锐化、伽马校正、盐椒噪声（SP）及等离子体强度变化（模拟束硬化、阳极足跟效应），以缩小合成DRR与真实X射线的域差距。样本来源：DeepFluoro数据集（6具尸体标本，CT及366张骨盆X射线，含手动14个地标标注）和Ljubljana数据集（10例神经介入患者，含旋转DSA及2D DSA图像）。

**研究结果**
**4.1 配准性能**
- 在DeepFluoro数据集上，xvr方法获得最佳精度（mPD 0.62 mm），但推理时间>7秒。LXPose（单次前向传播20 ms）达到mPD 1.13 mm，仅差0.36 mm，满足40 ms实时约束。迭代12次后（187 ms，符合200 ms可视化约束）mPD降至0.77 mm。LXPose显著优于满足实时约束的基线方法（xvr-reg mPD 4.22 mm，PoseNet mPD 77.85 mm）。mTRE差距主要由深度参数t_z误差导致，但mPD（2D空间）差距较小。
- 在Ljubljana数据集上，xvr精度最高（mPD 0.61 mm），但推理时间超标。LXPose（20 ms）mPD为0.85 mm，仅差0.24 mm；迭代12次后mPD降至0.76 mm。LXPose优于所有满足实时约束的基线。

**4.2 自动地标提取的影响**
- 使用网格提取的自动地标（14/50/100/500/1000/5000个）训练，发现DeepFluoro数据集上自动地标与手动地标性能无显著差异（统计不显著）。Ljubljana数据集上，少量自动地标（14个）即可达到优于手动中心线地标的性能。随机体素点作为地标仍可获中等mPD，但效果不如解剖学地标。地标数量增加不持续提升性能。该实验表明手动标注可完全替代。

**4.3 消融研究**
- 移除CNN2导致mPD显著上升，证明多阶段细化关键。端到端联合训练优于分阶段训练。回归轴角向量优于回归欧拉角。移除多尺度归一化互相关（mNCC）损失并仅用几何损失（mPD）可提升mPD并减少训练时间。使用测地损失（geodesic loss）略优mTRE但差于mPD。

**4.4 域差距量化**
- 所有方法在DRR测试集上性能优于真实X射线。使用完整数据增强（含SP和等离子体）后，mPD域差距缩小（DeepFluoro: 0.76 mm，Ljubljana: 0.74 mm），mTRE差距较大（深度误差主导）。去掉SP和等离子体增强后，mPD域差距增至5 mm，证明其关键作用。

**4.5 迭代细化与优化对比**
- LXPose经10次迭代后（约150 ms）精度达平台，接近优化结果。xvr单步优化即超实时约束（>40 ms），且需7.6秒才能达到LXPose相同精度。用LXPose回归器初始化xvr优化也需1.55秒。这表明学习型细化比迭代优化在速度-精度权衡上更优。

**讨论与结论**
讨论指出LXPose通过多阶段CNN实现实时配准，自动地标提取消除手动标注，单应性归一化处理内参变化。域差距仍存在但可通过增强缓解。主要局限为每患者需单独训练（患者特异性），且低剂量CT可能降低性能。未来方向包括多患者泛化、非刚性运动处理。结论部分翻译如下：研究人员提出了LXPose，一种端到端深度学习框架，用于术前CT与术中X射线的实时3D/2D配准。值得注意的是，LXPose实现了接近最先进方法的投影精度，同时将计算时间显著减少两个数量级，从几秒降至20毫秒，非常适合实时图像引导干预。这一性能得益于多种设计选择的结合，包括使用深度学习实现快速推理、多阶段CNN逐步细化姿态估计、在术中图像空间定义的基于2D投影的损失，以及全面的数据增强策略以提高对现实世界变异的鲁棒性。此外，LXPose依赖于自动地标提取程序，使框架无需任何手动标注即可运行。研究人员进一步在真实临床数据上验证了该方法，证明了其实用性以及通过所提出的基于单应性映射的变形策略处理内参变化的能力。未来工作将首先在带有手术器械的其他数据集上评估该方法，并进一步弥合DRR/X射线域差距。还将扩展该方法以纳入多患者数据训练以提高泛化能力。最后，将框架扩展到非刚性运动也是未来研究的一个有希望的方向。通过提供精确的实时引导，LXPose有潜力减少手术时间、减轻临床医生的认知负担并改善介入结果。

联系信箱：

粤ICP备09063491号

热点排行