Breaking the Data Barrier: Robust Few-Shot 3D Vessel Segmentation using Foundation Models

📄 arXiv: 2602.23782v1 📥 PDF

作者: Kirato Yoshihara, Yohei Sugawara, Yuta Tokuoka, Lihang Hong

分类: eess.IV, cs.CV

发布日期: 2026-02-27

备注: 10 pages, 3 figures, 2 tables


💡 一句话要点

利用预训练模型,提出一种鲁棒的小样本3D血管分割方法,有效应对数据匮乏和领域迁移问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D血管分割 小样本学习 预训练模型 领域迁移 医学图像分割

📋 核心要点

  1. 现有血管分割方法依赖大量标注数据,且在领域迁移时性能急剧下降,难以满足临床需求。
  2. 利用预训练视觉基础模型DINOv3,通过3D适配器、多尺度聚合器和Z通道嵌入,实现小样本下的鲁棒血管分割。
  3. 在小样本和异域数据集上,该方法显著优于现有方法,验证了其在数据稀缺和领域迁移场景下的有效性。

📝 摘要(中文)

本文提出了一种新颖的框架,利用预训练的视觉基础模型(DINOv3)进行体积血管分割,旨在解决现有血管分割方法依赖大规模标注数据且在领域迁移下性能显著下降的问题。该框架包含一个用于体积一致性的轻量级3D适配器、一个用于分层特征融合的多尺度3D聚合器以及Z通道嵌入,从而有效弥合了2D预训练和3D医学模态之间的差距,使模型能够从有限的数据中捕获连续的血管结构。在TopCoW(同域)和Lausanne(异域)数据集上的验证表明,在仅有5个训练样本的极端小样本情况下,该方法实现了43.42%的Dice分数,相对于最先进的nnU-Net(33.41%)提高了30%,并且优于其他基于Transformer的基线模型,如SwinUNETR和UNETR,高达45%。此外,在异域设置中,该模型表现出卓越的鲁棒性,相对于nnU-Net(21.37% vs. 14.22%)提高了50%,后者遭受了严重的领域过拟合。消融研究证实了3D适配机制和多尺度聚合策略对于血管连续性和鲁棒性的关键作用。结果表明,基础模型提供了一种可行的冷启动解决方案,提高了数据稀缺或领域迁移下的临床可靠性。

🔬 方法详解

问题定义:现有3D血管分割方法需要大量的标注数据进行训练,这在临床实践中是难以实现的,因为获取每个新的扫描仪或协议的大量标注数据是不切实际的。此外,这些方法在面对领域迁移(例如,来自不同医院或使用不同扫描协议的数据)时,性能会显著下降。

核心思路:本文的核心思路是利用预训练的视觉基础模型(DINOv3)的强大特征提取能力,通过少量样本进行微调,从而克服数据匮乏的问题。通过引入3D适配器和多尺度聚合器,使模型能够更好地理解3D血管结构,并提高对领域迁移的鲁棒性。Z通道嵌入则用于弥合2D预训练和3D医学图像之间的差距。

技术框架:该框架主要包含以下几个模块:1) 预训练的DINOv3模型作为特征提取器;2) 3D适配器,用于将2D特征转换为3D特征,并保持体积一致性;3) 多尺度3D聚合器,用于融合不同尺度的特征,捕获血管的全局和局部信息;4) Z通道嵌入,用于将3D图像的Z轴信息编码到特征中。整个流程是:首先使用DINOv3提取特征,然后通过3D适配器和Z通道嵌入进行3D转换,接着使用多尺度聚合器进行特征融合,最后进行血管分割。

关键创新:最重要的技术创新点在于将预训练的视觉基础模型应用于3D血管分割任务,并设计了专门的3D适配器和多尺度聚合器来适应3D医学图像的特点。与传统的从头开始训练的3D分割网络相比,该方法能够利用预训练模型学习到的通用视觉知识,从而在小样本情况下获得更好的性能。

关键设计:3D适配器采用轻量级设计,以减少计算量和参数量。多尺度聚合器使用多个3D卷积层和池化层来提取不同尺度的特征。Z通道嵌入通过将Z轴坐标信息添加到输入特征中,使模型能够感知3D空间信息。损失函数采用Dice损失和交叉熵损失的组合,以提高分割精度和鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在TopCoW数据集上,仅使用5个训练样本,该方法达到了43.42%的Dice分数,比nnU-Net提高了30%。在Lausanne数据集上,该方法达到了21.37%的Dice分数,比nnU-Net提高了50%,展示了其在小样本和异域数据上的优越性能。消融实验证明了3D适配器和多尺度聚合器对于提升血管分割性能的关键作用。

🎯 应用场景

该研究成果可应用于多种临床场景,例如辅助医生进行血管疾病的诊断和治疗规划,提高诊断效率和准确性。尤其是在数据资源有限的医疗机构或面对新的扫描设备和协议时,该方法能够快速部署并提供可靠的血管分割结果。未来,该方法有望推广到其他3D医学图像分割任务中,例如肿瘤分割和器官分割。

📄 摘要(原文)

State-of-the-art vessel segmentation methods typically require large-scale annotated datasets and suffer from severe performance degradation under domain shifts. In clinical practice, however, acquiring extensive annotations for every new scanner or protocol is unfeasible. To address this, we propose a novel framework leveraging a pre-trained Vision Foundation Model (DINOv3) adapted for volumetric vessel segmentation. We introduce a lightweight 3D Adapter for volumetric consistency, a multi-scale 3D Aggregator for hierarchical feature fusion, and Z-channel embedding to effectively bridge the gap between 2D pre-training and 3D medical modalities, enabling the model to capture continuous vascular structures from limited data. We validated our method on the TopCoW (in-domain) and Lausanne (out-of-distribution) datasets. In the extreme few-shot regime with 5 training samples, our method achieved a Dice score of 43.42%, marking a 30% relative improvement over the state-of-the-art nnU-Net (33.41%) and outperforming other Transformer-based baselines, such as SwinUNETR and UNETR, by up to 45%. Furthermore, in the out-of-distribution setting, our model demonstrated superior robustness, achieving a 50% relative improvement over nnU-Net (21.37% vs. 14.22%), which suffered from severe domain overfitting. Ablation studies confirmed that our 3D adaptation mechanism and multi-scale aggregation strategy are critical for vascular continuity and robustness. Our results suggest foundation models offer a viable cold-start solution, improving clinical reliability under data scarcity or domain shifts.