VoxCor: Training-Free Volumetric Features for Multimodal Voxel Correspondence
作者: Guney Tombak, Ertunc Erdil, Ender Konukoglu
分类: cs.CV
发布日期: 2026-05-13
🔗 代码/项目: GITHUB
💡 一句话要点
VoxCor:一种免训练的体素特征方法,用于多模态体素对应
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态医学图像配准 体素特征 Vision Transformer 免训练学习 加权偏最小二乘 跨模态迁移学习 三平面特征
📋 核心要点
- 现有跨模态医学图像配准方法依赖单轴特征提取和成对图像配准,忽略了互补视角信息,且泛化性较差。
- VoxCor提出一种免训练的体素特征提取方法,通过三平面ViT推理和加权偏最小二乘投影,提取模态稳定的解剖方向特征。
- 实验表明,VoxCor在跨模态、跨受试者配准任务上表现出色,降低了编码器敏感性,性能与手工特征和3D学习特征相当。
📝 摘要(中文)
跨模态3D医学图像分析需要体素级别的表示,这些表示在不同的成像对比度、扫描仪和采集协议下保持解剖学一致性。最近的研究表明,冻结的2D Vision Transformer (ViT) 基础模型可以支持这种表示,但典型的流程是沿着单个解剖轴提取特征,并在配准求解器中一次适应一个图像对的特征,导致互补的观察方向未被使用,并且产生的表示无法转移到新的体数据。我们引入了VoxCor,这是一种免训练的拟合-变换方法,用于从冻结的2D ViT基础模型中获得可重用的体素特征表示。在离线拟合阶段,VoxCor将三平面ViT推理与紧凑的闭式加权偏最小二乘(WPLS)投影相结合,该投影使用拟合时的体素对应关系来选择三平面特征空间中模态稳定的解剖方向。在变换时,新的体数据仅通过三平面ViT推理和线性投影进行映射,无需微调或配准。然后可以直接通过最近邻搜索查询体素对应关系。我们在受试者内部的腹部MR-CT和受试者之间的HCP T2w-T1w任务上,使用可变形配准、体素k近邻分割和分割中心地标定位来评估VoxCor。VoxCor改进了最困难的跨受试者、跨模态迁移设置,降低了编码器对密集对应迁移的敏感性,并产生了与手工制作的描述符和学习的3D特征具有竞争力的配准性能。这使得VoxCor成为下游多模态分析的可重用特征层,超越了成对配准。
🔬 方法详解
问题定义:论文旨在解决跨模态3D医学图像配准中,现有方法依赖单轴特征提取、泛化性差的问题。现有方法通常针对特定图像对进行训练或微调,难以适应新的模态或受试者,且忽略了不同解剖轴向的信息互补性。
核心思路:论文的核心思路是利用预训练的2D ViT模型提取多平面特征,并通过加权偏最小二乘(WPLS)投影学习模态稳定的解剖方向特征。这种方法无需训练或微调,即可实现跨模态的体素级对应,提高泛化能力。
技术框架:VoxCor的整体框架包含两个阶段:拟合阶段和变换阶段。在拟合阶段,首先对训练集图像进行三平面ViT推理,提取特征。然后,利用已知的体素对应关系,通过WPLS学习一个投影矩阵,将三平面特征映射到模态稳定的特征空间。在变换阶段,对于新的图像,首先进行三平面ViT推理,然后通过学习到的投影矩阵进行线性变换,得到最终的体素特征表示。
关键创新:VoxCor的关键创新在于:1) 利用预训练的2D ViT模型提取多平面特征,充分利用了图像信息;2) 提出了一种免训练的WPLS投影方法,学习模态稳定的解剖方向特征,提高了泛化能力;3) 将特征提取和配准解耦,使得特征表示可以重用,用于下游任务。与现有方法相比,VoxCor无需训练或微调,即可实现跨模态的体素级对应。
关键设计:WPLS投影是VoxCor的关键设计。WPLS的目标是找到一个投影矩阵,使得投影后的特征在不同模态下具有最大的相关性。WPLS的具体实现包括以下步骤:1) 对三平面ViT特征进行归一化;2) 计算不同模态特征之间的协方差矩阵;3) 对协方差矩阵进行特征分解,得到投影矩阵。论文中使用了闭式解来计算WPLS投影矩阵,提高了计算效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VoxCor在跨受试者、跨模态的腹部MR-CT和HCP T2w-T1w配准任务上取得了显著的性能提升。在最困难的跨模态迁移设置中,VoxCor降低了编码器对密集对应迁移的敏感性,并获得了与手工特征和学习的3D特征具有竞争力的配准性能。例如,在voxelwise k-NN分割任务中,VoxCor取得了优于其他方法的分割精度。
🎯 应用场景
VoxCor可应用于多种跨模态医学图像分析任务,如图像配准、分割、病灶检测等。其免训练的特性使其易于部署和应用,尤其是在数据量有限或模态多样的情况下。该方法有望促进多模态医学影像的临床应用,例如辅助诊断、治疗计划和疗效评估。
📄 摘要(原文)
Cross-modal 3D medical image analysis requires voxelwise representations that remain anatomically consistent across imaging contrasts, scanners, and acquisition protocols. Recent work has shown that frozen 2D Vision Transformer (ViT) foundation models can support such representations, but typical pipelines extract features along a single anatomical axis and adapt those features inside a registration solver for one image pair at a time, leaving complementary viewing directions unused and producing representations that do not transfer to new volumes. We introduce VoxCor, a training-free fit--transform method for reusable volumetric feature representations from frozen 2D ViT foundation models. During an offline fitting phase, VoxCor combines triplanar ViT inference with a compact closed-form weighted partial least squares (WPLS) projection that uses fitting-time voxel correspondences to select modality-stable anatomical directions in the triplanar feature space. At transform time, new volumes are mapped by triplanar ViT inference and linear projection alone, without fine-tuning or registration. Voxel correspondences can then be queried directly by nearest-neighbor search. We evaluate VoxCor on intra-subject Abdomen MR--CT and inter-subject HCP T2w--T1w tasks using deformable registration, voxelwise k-nearest-neighbor segmentation, and segmentation-center landmark localization. VoxCor improves the hardest cross-subject, cross-modality transfer settings, reduces encoder sensitivity for dense correspondence transfer, and yields registration performance competitive with handcrafted descriptors and learned 3D features. This positions VoxCor as a reusable feature layer for downstream multimodal analysis beyond pairwise registration. Code, configuration files, and implementation details are publicly available on GitHub at \href{https://github.com/guneytombak/VoxCor}{guneytombak/VoxCor}.