Curriculum-Driven 3D CT Report Generation via Language-Free Visual Grafting and Zone-Constrained Compression
作者: V. K. Cody Bumgardner, Mitchell A. Klusty, Mahmut S. Gokmen, Evan W. Damron
分类: cs.CV, cs.AI
发布日期: 2026-03-24
备注: 10 pages, 2 figures
💡 一句话要点
提出Ker-VLJEPA-3B,通过课程学习和无语言视觉嫁接生成3D CT报告
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D CT报告生成 课程学习 自监督学习 视觉语言模型 医学影像诊断
📋 核心要点
- 现有方法在从3D CT生成报告时面临序列长度过长、类别不平衡以及LLM忽略视觉信息等挑战。
- Ker-VLJEPA-3B通过无语言的视觉嫁接和区域约束压缩,利用课程学习框架引导LLM关注视觉特征。
- 在CT-RATE基准测试中,Ker-VLJEPA-3B的宏F1值达到0.429,超越了现有SOTA方法,并通过阈值优化进一步提升至0.448。
📝 摘要(中文)
本文提出Ker-VLJEPA-3B,一个用于从胸腔CT体数据生成自由文本报告的四阶段课程学习框架。该框架逐步调整Llama 3.2 3B解码器,使其输出以来自冻结的自监督编码器的视觉特征为基础。视觉骨干网络(LeJEPA ViT-Large)通过在未标记的CT上进行自监督联合嵌入预测进行训练,无需文本监督。与对比模型(CLIP, BiomedCLIP)不同,这种无语言骨干网络产生模态纯粹的表示。视觉-语言对齐被推迟到课程的桥接和生成阶段。这种模态无关的设计可以将任何自监督编码器集成到LLM中,而无需在基础训练期间配对文本。方法创新包括:(1)区域约束交叉注意力,将切片嵌入压缩为32个空间定位的视觉tokens;(2)各向异性LLM嵌入的PCA白化;(3)仅阳性发现策略,消除后验崩溃;(4)传递投影权重的热桥初始化;(5)选择性交叉注意力冻结与弹性权重巩固,以防止灾难性遗忘。在CT-RATE基准测试(2,984个验证体数据,18个类别)上评估,Ker-VLJEPA-3B实现了0.429的宏F1,超过了最先进水平(U-VLM,宏F1 = 0.414) 3.6%,并通过阈值优化达到0.448(+8.2%)。消融研究证实,56.6%的生成质量来自患者特定的视觉内容。代码和权重已开源。
🔬 方法详解
问题定义:论文旨在解决从3D CT图像自动生成放射科报告的问题。现有方法,尤其是基于大型语言模型(LLM)的方法,在处理长序列的3D CT数据时,容易忽略视觉信息,过度依赖语言先验知识,导致生成的报告与实际图像内容不符。此外,类别不平衡问题也使得模型难以准确识别和描述罕见病灶。
核心思路:论文的核心思路是采用一种课程学习框架,逐步引导LLM关注并利用CT图像的视觉特征。通过无语言的自监督学习训练视觉编码器,避免了视觉表示受到文本信息的干扰。然后,通过一系列技术手段,将视觉特征有效地融入到LLM中,从而生成更准确、更可靠的报告。
技术框架:Ker-VLJEPA-3B框架包含四个阶段:1) 使用LeJEPA ViT-Large进行自监督视觉特征提取;2) 通过区域约束交叉注意力将切片嵌入压缩为32个视觉tokens;3) 使用PCA白化处理LLM嵌入;4) 使用课程学习逐步训练Llama 3.2 3B解码器,使其能够基于视觉特征生成报告。框架还包括桥接初始化和选择性交叉注意力冻结等策略,以提高训练效率和防止灾难性遗忘。
关键创新:该论文的关键创新在于:1) 采用无语言的自监督学习方法训练视觉编码器,避免了视觉表示受到文本信息的干扰;2) 提出区域约束交叉注意力机制,有效地压缩了视觉特征,降低了计算复杂度;3) 设计了四阶段课程学习框架,逐步引导LLM关注视觉特征,提高了报告生成的准确性。
关键设计:区域约束交叉注意力将CT图像划分为不同的区域,并对每个区域内的切片嵌入进行压缩,生成32个空间定位的视觉tokens。PCA白化用于处理LLM嵌入,以消除各向异性。仅阳性发现策略用于消除后验崩溃。桥接初始化通过传递投影权重来加速训练。选择性交叉注意力冻结与弹性权重巩固用于防止灾难性遗忘。
🖼️ 关键图片
📊 实验亮点
Ker-VLJEPA-3B在CT-RATE基准测试中取得了显著的性能提升,宏F1值达到0.429,超越了当前最先进的U-VLM模型(0.414) 3.6%。通过阈值优化,宏F1值进一步提升至0.448,提升幅度达到8.2%。消融实验表明,56.6%的生成质量来源于患者特定的视觉内容,验证了该方法在利用视觉信息方面的有效性。
🎯 应用场景
该研究成果可应用于医学影像诊断领域,辅助放射科医生快速生成准确的CT报告,提高诊断效率和准确性。此外,该方法还可以推广到其他医学影像模态,如MRI、PET等,具有广阔的应用前景。未来,该技术有望实现更智能化的影像诊断,减轻医生的工作负担,提高医疗服务质量。
📄 摘要(原文)
Automated radiology report generation from 3D computed tomography (CT) volumes is challenging due to extreme sequence lengths, severe class imbalance, and the tendency of large language models (LLMs) to ignore visual tokens in favor of linguistic priors. We present Ker-VLJEPA-3B, a four-phase curriculum learning framework for free-text report generation from thoracic CT volumes. A phased training curriculum progressively adapts a Llama 3.2 3B decoder to ground its output in visual features from a frozen, self-supervised encoder. Our visual backbone (LeJEPA ViT-Large) is trained via self-supervised joint-embedding prediction on unlabeled CTs, without text supervision. Unlike contrastive models (CLIP, BiomedCLIP), this language-free backbone yields modality-pure representations. Vision-language alignment is deferred to the curriculum's bridge and generation phases. This modality-agnostic design can integrate any self-supervised encoder into an LLM without paired text during foundation training. Methodological innovations include: (1) zone-constrained cross-attention compressing slice embeddings into 32 spatially-grounded visual tokens; (2) PCA whitening of anisotropic LLM embeddings; (3) a positive-findings-only strategy eliminating posterior collapse; (4) warm bridge initialization transferring projection weights; and (5) selective cross-attention freezing with elastic weight consolidation to prevent catastrophic forgetting. Evaluated on the CT-RATE benchmark (2,984 validation volumes, 18 classes), Ker-VLJEPA-3B achieves a macro F1 of 0.429, surpassing the state-of-the-art (U-VLM, macro F1 = 0.414) by 3.6%, and reaching 0.448 (+8.2%) with threshold optimization. Ablation studies confirm 56.6% of generation quality derives from patient-specific visual content. Code and weights are available.