Raptor: Scalable Train-Free Embeddings for 3D Medical Volumes Leveraging Pretrained 2D Foundation Models
作者: Ulzee An, Moonseong Jeong, Simon A. Lee, Aditya Gorla, Yuzhe Yang, Sriram Sankararaman
分类: eess.IV, cs.CV, cs.LG
发布日期: 2025-07-11
备注: 21 pages, 10 figures, accepted to ICML 2025. The first two authors contributed equally
期刊: In Proc. 42th International Conference on Machine Learning (ICML 2025 Spotlight)
💡 一句话要点
Raptor:利用预训练2D基础模型,为3D医学体数据生成可扩展的免训练嵌入。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D医学影像 免训练学习 预训练模型 随机投影 特征嵌入
📋 核心要点
- 现有3D医学影像基础模型训练面临计算量巨大和数据集匮乏的双重挑战。
- Raptor利用预训练的2D模型提取切片特征,并通过随机投影压缩空间信息,实现高效嵌入。
- 实验表明,Raptor在多个医学影像任务上超越现有方法,且无需训练,性能提升显著。
📝 摘要(中文)
针对磁共振成像(MRI)等容积成像数据,开发基础模型面临高维架构训练的计算复杂性和大规模数据集构建的挑战。本文提出Raptor(随机平面张量降维),一种免训练方法,用于生成容积数据的语义丰富嵌入。Raptor利用预训练的2D自然图像基础模型,从医学体数据的各个横截面提取视觉tokens。然后,通过随机投影在空间上压缩这些tokens,显著降低计算复杂度,同时保留语义信息。在十项不同的医学容积任务上的大量实验验证了Raptor优于现有方法,包括专门在医学容积上预训练的方法(SuPreM +3%,MISFM +6%,Merlin +10%,VoCo +13%,SLIViT +14%),且完全无需昂贵的训练。结果表明,Raptor作为推进基于深度学习的医学容积方法的基础,具有有效性和通用性。
🔬 方法详解
问题定义:现有3D医学影像分析方法,特别是构建3D医学影像基础模型,面临着计算资源需求高昂和缺乏大规模标注数据集的问题。直接在3D体数据上训练深度学习模型,计算复杂度极高,而且需要大量的3D标注数据,这在医学领域是极其稀缺的。因此,如何高效地利用现有资源,构建强大的3D医学影像表征模型是一个关键问题。
核心思路:Raptor的核心思路是利用在自然图像上预训练的2D基础模型,提取3D医学体数据切片的特征,然后通过随机投影的方式压缩这些特征,从而生成3D体数据的嵌入表示。这种方法避免了直接在3D数据上进行训练,大大降低了计算复杂度,并且可以利用预训练模型的知识,提高模型的泛化能力。
技术框架:Raptor的整体框架包括以下几个主要步骤:1) 切片提取:从3D医学体数据中提取一系列2D切片。2) 特征提取:使用预训练的2D基础模型(例如,CLIP)提取每个切片的视觉tokens。3) 随机投影:使用随机投影矩阵将切片的tokens在空间维度上进行压缩,得到体数据的嵌入表示。4) 下游任务:将得到的嵌入表示用于各种下游任务,例如分类、分割等。
关键创新:Raptor的关键创新在于利用随机投影来压缩3D体数据的空间信息。与传统的3D卷积神经网络相比,随机投影的计算复杂度更低,而且可以保留重要的语义信息。此外,Raptor还充分利用了预训练的2D基础模型,避免了从头开始训练3D模型,大大降低了训练成本。
关键设计:Raptor的关键设计包括:1) 随机投影矩阵的选择:论文中使用了高斯随机矩阵作为随机投影矩阵。2) 切片数量的选择:需要根据具体的任务和数据集选择合适的切片数量。3) 预训练2D模型的选择:可以选择不同的预训练2D模型,例如CLIP、ViT等。4) 嵌入向量的维度:需要根据下游任务的需求选择合适的嵌入向量维度。
🖼️ 关键图片
📊 实验亮点
Raptor在十个不同的医学容积任务上取得了显著的性能提升,超越了现有最先进的方法,包括那些专门在医学容积上预训练的模型。具体而言,Raptor在SuPreM上提升了3%,在MISFM上提升了6%,在Merlin上提升了10%,在VoCo上提升了13%,在SLIViT上提升了14%。这些结果表明,Raptor能够有效地利用预训练的2D模型,为3D医学影像生成高质量的嵌入表示,并且无需进行昂贵的3D训练。
🎯 应用场景
Raptor在医学影像分析领域具有广泛的应用前景,例如疾病诊断、病灶分割、治疗方案规划等。它可以作为3D医学影像分析的基础模块,为各种下游任务提供强大的特征表示。此外,Raptor的免训练特性使其能够快速部署到不同的医疗场景中,具有很高的实际应用价值。未来,Raptor可以进一步扩展到其他类型的3D数据分析中,例如遥感影像、工业CT等。
📄 摘要(原文)
Current challenges in developing foundational models for volumetric imaging data, such as magnetic resonance imaging (MRI), stem from the computational complexity of training state-of-the-art architectures in high dimensions and curating sufficiently large datasets of volumes. To address these challenges, we introduce Raptor (Random Planar Tensor Reduction), a train-free method for generating semantically rich embeddings for volumetric data. Raptor leverages a frozen 2D foundation model, pretrained on natural images, to extract visual tokens from individual cross-sections of medical volumes. These tokens are then spatially compressed using random projections, significantly reducing computational complexity while retaining semantic information. Extensive experiments on ten diverse medical volume tasks verify the superior performance of Raptor over state-of-the-art methods, including those pretrained exclusively on medical volumes (+3% SuPreM, +6% MISFM, +10% Merlin, +13% VoCo, and +14% SLIViT), while entirely bypassing the need for costly training. Our results highlight the effectiveness and versatility of Raptor as a foundation for advancing deep learning-based methods for medical volumes.