Scaling Self-Supervised and Cross-Modal Pretraining for Volumetric CT Transformers

作者: Cris Claessens, Christiaan Viviers, Giacomo D'Amicantonio, Egor Bondarev, Fons van der Sommen

分类: cs.CV

发布日期: 2025-11-21

💡 一句话要点

SPECTRE：用于体积CT图像Transformer的自监督和跨模态预训练

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: CT图像 Transformer 自监督学习 跨模态学习 医学影像分析 预训练模型 DINO SigLIP

📋 核心要点

体积CT图像处理面临token数量爆炸、几何各向异性以及临床监督信息不足等挑战，传统Transformer模型难以直接应用。
SPECTRE通过联合优化局部和全局Transformer，分别处理高分辨率特征提取和全局上下文建模，实现了大规模3D注意力的计算可行性。
SPECTRE仅使用公开CT数据集训练，结合DINO自蒸馏和SigLIP视觉-语言对齐，在多个CT基准测试中超越了现有CT基础模型。

📝 摘要（中文）

本文提出SPECTRE，一个完全基于Transformer的体积计算机断层扫描(CT)基础模型。SPECTRE（用于CT表征提取的自监督和跨模态预训练）方法利用可扩展的3D Vision Transformer架构和现代自监督及视觉-语言预训练策略来学习通用的CT表征。体积CT带来了独特的挑战，如极端的token扩展、几何各向异性和微弱或嘈杂的临床监督，这使得标准的Transformer和对比学习方法无法直接生效。该框架联合优化一个用于高分辨率体积特征提取的局部Transformer和一个用于全局扫描上下文建模的全局Transformer，使得大规模3D注意力在计算上变得可行。值得注意的是，SPECTRE仅在公开可用的CT数据集上进行训练，表明无需依赖私有数据即可实现高性能、可泛化的表征。预训练结合了DINO风格的自蒸馏和基于SigLIP的视觉-语言对齐，使用配对的放射学报告，从而产生在几何上一致且在临床上有意义的特征。在多个CT基准测试中，SPECTRE在零样本和微调设置中始终优于先前的CT基础模型，从而确立了SPECTRE作为可扩展、开放且完全基于Transformer的3D医学成像基础模型的地位。

🔬 方法详解

问题定义：论文旨在解决体积CT图像的通用表征学习问题。现有方法在处理大规模3D CT数据时，面临计算量巨大、几何信息利用不足以及缺乏有效监督信号等痛点，导致模型泛化能力受限。

核心思路：论文的核心思路是设计一个可扩展的Transformer架构，结合自监督学习和跨模态学习策略，从公开CT数据中学习到既具有几何一致性又具有临床意义的通用表征。通过局部和全局Transformer的联合优化，实现高效的3D上下文建模。

技术框架：SPECTRE框架包含两个主要模块：局部Transformer和全局Transformer。局部Transformer负责从高分辨率CT图像块中提取局部特征，全局Transformer则负责整合整个CT扫描的上下文信息。预训练阶段采用DINO风格的自蒸馏和SigLIP视觉-语言对齐，利用放射学报告作为弱监督信号。

关键创新：SPECTRE的关键创新在于其可扩展的Transformer架构和联合自监督-跨模态预训练策略。通过局部和全局Transformer的协同工作，有效解决了大规模3D数据的计算瓶颈。同时，利用公开数据和弱监督信息，避免了对私有数据的依赖。

关键设计：SPECTRE采用DINO损失进行自蒸馏，鼓励模型学习一致的表征。SigLIP损失则用于视觉-语言对齐，将CT图像与对应的放射学报告对齐。局部Transformer和全局Transformer的具体架构细节（如层数、注意力头数等）以及训练参数（如学习率、batch size等）需要在实验中进行调整。

🖼️ 关键图片

📊 实验亮点

SPECTRE在多个CT基准测试中取得了显著的性能提升，在零样本和微调设置中均优于先前的CT基础模型。具体性能数据未在摘要中给出，但强调了其在几何一致性和临床意义上的优势，表明其学习到的表征具有更好的泛化能力。

🎯 应用场景

SPECTRE在医学影像分析领域具有广泛的应用前景，例如疾病诊断、病灶分割、预后预测等。该模型可以作为CT图像分析的基础模型，通过微调适应不同的下游任务。由于其在公开数据集上训练，降低了数据获取的门槛，有利于推动医学影像分析的开放研究。

📄 摘要（原文）

We introduce SPECTRE, a fully transformer-based foundation model for volumetric computed tomography (CT). Our Self-Supervised & Cross-Modal Pretraining for CT Representation Extraction (SPECTRE) approach utilizes scalable 3D Vision Transformer architectures and modern self-supervised and vision-language pretraining strategies to learn general-purpose CT representations. Volumetric CT poses unique challenges, such as extreme token scaling, geometric anisotropy, and weak or noisy clinical supervision, that make standard transformer and contrastive learning recipes ineffective out of the box. The framework jointly optimizes a local transformer for high-resolution volumetric feature extraction and a global transformer for whole-scan context modeling, making large-scale 3D attention computationally tractable. Notably, SPECTRE is trained exclusively on openly available CT datasets, demonstrating that high-performing, generalizable representations can be achieved without relying on private data. Pretraining combines DINO-style self-distillation with SigLIP-based vision-language alignment using paired radiology reports, yielding features that are both geometrically consistent and clinically meaningful. Across multiple CT benchmarks, SPECTRE consistently outperforms prior CT foundation models in both zero-shot and fine-tuned settings, establishing SPECTRE as a scalable, open, and fully transformer-based foundation model for 3D medical imaging.

Scaling Self-Supervised and Cross-Modal Pretraining for Volumetric CT Transformers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理