《Information Fusion》:PV-LiverNet: A Multi-phase Temporal Fusion Framework Unifying Voxel Semantics and Point Geometry for Liver Tumor Segmentation and Classification
编辑推荐:
肝肿瘤精准分割与分类需融合时空多模态特征,现有方法因孤立处理空间和时域特征导致信息融合不足。PV-LiverNet提出双流融合框架,体素流采用时相注意力机制捕获动态语义,点云流通过梯度引导自适应采样提取高阶几何特征,双向时空融合模块实现跨模态特征交互,在LiTS等数据集上显著优于SOTA方法,边界95% Hausdorff距离降低46%。
李荣|王子沐|刘刚|范德宇|邓福乐|何淑瑶|王洋杰|徐萌
西安交通大学第二附属医院麻醉科,中国陕西省西安市,710004
摘要
肝脏肿瘤的精确分割和鉴别诊断对于治疗计划的制定至关重要。然而,现有方法往往孤立地处理空间和时间特征,阻碍了体积数据的语义丰富性与表面边界几何精度之间的有效信息融合。为了解决这一难题,我们提出了PV-LiverNet这一新型框架,它通过深度多模态信息融合实现了统一分析。该框架由两个协同工作的流程驱动:一个具有时间通道注意力(TCA)的血流动力学感知体素流,用于捕捉相位依赖的模式;另一个保留拓扑结构的点流,利用梯度引导的自适应采样(GGAS)技术提取高频边界细节。我们的方法核心是双向时空融合(BSTF)模块,它作为信息融合的核心引擎,动态地整合这些表示方式——将语义上下文注入到稀疏点中,同时利用几何线索来增强体素特征。在大型多相位计算机断层扫描(CT)数据集和LiTS基准测试中的广泛实验表明,这种以融合为中心的设计显著优于现有方法。它实现了更优的边界吻合度(95%豪斯多夫距离减少了46%)和诊断准确性,为肝脏肿瘤的统一分析提供了可靠的解决方案。
引言
原发性肝癌(主要是肝细胞癌HCC)是全球癌症相关死亡的第三大原因[1]。早期和准确的诊断对于提高生存率至关重要,治疗方法根据肿瘤的分期和恶性程度从手术切除到射频消融不等[2]。多相位计算机断层扫描(CT)通常包括非对比增强(NC)、动脉增强(AP)、门静脉增强(PVP)和延迟增强(DP)阶段,是临床非侵入性诊断的金标准[3]。HCC的鉴别诊断依赖于其独特的时间血流动力学特征,特别是“快速进入和快速退出”的增强模式,这使其与其他局灶性肝脏病变区分开来[3]。因此,一个能够同时分割肿瘤边界并根据时空模式分类恶性肿瘤的自动化系统具有很高的临床需求。
随着深度学习、体积卷积神经网络(CNN)和视觉Transformer的发展,它们在医学图像分割方面取得了先进的性能。然而,基于体素的表示方法面临着固有的分辨率-计算困境。由于计算复杂度随网格分辨率的三次方(O(N^3))增长[4],高保真度的体素处理需要大量的内存。这在语义提取和边界吻合度之间造成了根本性的冲突:为了捕获足够的整体上下文以识别肿瘤,模型往往被迫在大幅下采样或裁剪后的体积上进行操作[5]。这种必要的离散化会牺牲高频几何细节,导致肿瘤边界“过度平滑”,并可能遗漏对精确手术计划至关重要的小病灶或浸润性病灶。
点云表示作为一种有前景的替代方案,可以减轻体素-网格的计算负担。通过在感兴趣的区域采样点,基于点的网络(例如PointNet++ [6])能够以线性内存效率(O(N))处理高分辨率的几何数据。尽管基于点的方法在骨骼分割中显示出潜力[7],但其在软组织肿瘤中的应用仍待探索。肝脏肿瘤缺乏固定的形状和稳定的边界,仅靠点无法捕捉反映不同时间相位下血流动力学变化所需的语义上下文。
为了解决这种立方体级的计算冲突,我们提出了PV-LiverNet,这是一个双流点-体素网络,它将语义抽象与几何细化分离。我们的方法通过双重表示范式解决了上述困境:一个血流动力学感知体素流以可管理的分辨率处理时间语义建模所需的体积上下文,而一个梯度引导的点流则以O(N)的复杂度捕获细粒度的几何边界。这两个流程通过双向时空融合(BSTF)模块统一起来,从而实现从点到体素的几何精度提升和从体素到点的语义特征增强。通过利用两个领域的互补优势,PV-LiverNet在不需要高分辨率体素网格的情况下实现了手术级别的边界吻合度。
本研究的主要贡献总结如下:
•我们提出了PV-LiverNet,这是一个统一的框架,通过结合点-体素融合与多相位CT血流动力学,实现了肝脏肿瘤的同时分割和分类。
•我们引入了一种梯度引导的采样策略,有效地将体积软组织数据转换为对边界敏感的点云,解决了医学成像中的稀疏性问题。
•我们设计了一个双向时空融合(BSTF)模块,实现了几何域和语义域之间的多尺度交互,显著提高了边界吻合度(HD95)和诊断准确性。
部分摘录
体积架构:从CNN到Transformer
自动化肝脏肿瘤分割的范式已经从早期的启发式算法转变为以深度学习为主的框架。基础模型如3D U-Net [8] 和 V-Net [9] 建立了标准的编码器-解码器架构,利用分层跳跃连接来减少空间信息损失。在此基础上,nnU-Net [10] 证明了通过对预处理和数据增强的系统化优化,可以将3D卷积神经网络(CNN)的性能进一步提升
框架概述
在这项工作中,我们提出了PV-LiverNet,这是一个旨在协调医学图像分析中语义抽象和几何精度之间权衡的统一双流框架。我们架构的核心理念是利用两种不同表示方式的互补优势:体积网格自然编码了全局语义上下文和相位依赖的血流动力学特征,而点云则提供了灵活的、基于坐标的
数据集
为了评估所提出框架在多相位鉴别诊断中的临床效果及其几何泛化能力,我们在两个不同的数据集上进行了广泛的实验:一个大规模的内部临床数据集和公开的LiTS基准测试数据集。
结论与讨论
在这项工作中,我们提出了PV-LiverNet,这是一个旨在解决肝脏肿瘤分析中语义抽象和几何精度之间根本性权衡的新型双流框架。通过结合血流动力学感知体素流和保留拓扑结构的点流,我们的方法利用梯度引导的自适应采样(GGS)技术恢复了在体素离散化过程中通常丢失的细粒度边界细节。我们的结果证实了这一范式的有效性:与
CRediT作者贡献声明
李荣:撰写 – 审稿与编辑,软件实现。王子沐:撰写 – 审稿与编辑,可视化,研究。刘刚:撰写 – 审稿与编辑,方法学,研究。范德宇:撰写 – 审稿与编辑,监督,资源管理。邓福乐:撰写 – 审稿与编辑,监督,软件实现,概念化。何淑瑶:撰写 – 审稿与编辑,验证,资源管理,研究。王洋杰:撰写 – 审稿与编辑,资源管理,方法学。徐萌:原创撰写