Leveraging Image Editing Foundation Models for Data-Efficient CT Metal Artifact Reduction

📄 arXiv: 2604.05934v1 📥 PDF

作者: Ahmet Rasim Emirdagi, Süleyman Aslan, Mısra Yavuz, Görkay Aydemir, Yunus Bilge Kurt, Nasrin Rahimi, Burak Can Biner, M. Akın Yılmaz

分类: cs.CV, eess.IV

发布日期: 2026-04-07

备注: Accepted to CVPRW 2026 Med-Reasoner

🔗 代码/项目: GITHUB


💡 一句话要点

利用图像编辑基础模型,以数据高效的方式减少CT金属伪影

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CT图像 金属伪影去除 图像编辑 扩散模型 LoRA 数据高效学习 医学图像重建

📋 核心要点

  1. CT图像中的金属伪影严重影响图像质量,传统深度学习方法需要大量配对数据进行训练。
  2. 论文提出利用预训练的视觉-语言扩散模型,通过少量数据进行微调,实现数据高效的伪影去除。
  3. 实验表明,该方法在AAPM CT-MAR基准上取得了优异的性能,尤其在感知和放射学特征指标上。

📝 摘要(中文)

高衰减植入物产生的金属伪影严重降低了CT图像质量,遮蔽了关键的解剖结构,并对需要大量配对训练数据的标准深度学习方法提出了挑战。本文提出了一种范式转变:通过参数高效的低秩适应(LoRA)来调整通用视觉-语言扩散基础模型,将伪影减少重新定义为上下文推理任务。通过利用丰富的视觉先验,我们的方法仅使用16到128个配对训练样本即可实现有效的伪影抑制,从而将数据需求减少了两个数量级。至关重要的是,我们证明了领域自适应对于幻觉缓解至关重要;如果没有它,基础模型会将条纹伪影解释为错误的自然物体(例如,华夫饼或培养皿)。为了使恢复更可靠,我们提出了一种多参考条件策略,其中来自无关受试者的干净解剖学范例与损坏的输入一起提供,使模型能够利用特定类别的上下文来推断未损坏的解剖结构。在AAPM CT-MAR基准上的广泛评估表明,我们的方法在感知和放射学特征指标上实现了最先进的性能。这项工作表明,基础模型在适当调整后,为可解释的、数据高效的医学图像重建提供了一种可扩展的替代方案。代码可在https://github.com/ahmetemirdagi/CT-EditMAR获得。

🔬 方法详解

问题定义:CT图像中金属植入物造成的伪影会严重影响图像质量,阻碍医生对关键解剖结构的观察和诊断。传统的深度学习方法,如卷积神经网络,通常需要大量的配对数据(即有伪影的图像和对应的无伪影图像)进行训练,这在医学图像领域是难以满足的。因此,如何在数据有限的情况下有效去除金属伪影是一个重要的挑战。

核心思路:本文的核心思路是利用预训练的图像编辑基础模型,将伪影去除任务转化为一个上下文推理问题。预训练模型已经学习了丰富的视觉先验知识,可以帮助模型理解图像内容并进行修复。通过少量的数据进行微调,使模型能够适应CT图像的特点,从而实现数据高效的伪影去除。同时,为了避免模型产生幻觉,引入了领域自适应和多参考条件策略。

技术框架:整体框架包括以下几个主要步骤:1) 使用预训练的视觉-语言扩散模型作为基础模型;2) 使用少量配对的CT图像数据,通过LoRA(Low-Rank Adaptation)方法对模型进行微调,使其适应CT图像的特点;3) 引入领域自适应策略,防止模型将伪影误识别为其他物体;4) 采用多参考条件策略,将来自其他患者的干净CT图像作为参考,帮助模型更好地恢复图像细节。

关键创新:本文最重要的创新点在于将图像编辑基础模型应用于CT金属伪影去除任务,并提出了数据高效的微调策略。与传统的深度学习方法相比,该方法只需要少量的数据即可达到良好的效果。此外,领域自适应和多参考条件策略的引入,有效地缓解了模型产生幻觉的问题。

关键设计:论文使用了Stable Diffusion作为基础模型,并采用LoRA进行参数高效的微调。LoRA通过学习低秩矩阵来更新模型参数,从而减少了需要训练的参数数量,提高了训练效率。此外,论文还设计了一种多参考条件策略,将来自其他患者的干净CT图像作为参考,通过concat的方式输入到模型中,帮助模型更好地恢复图像细节。损失函数方面,使用了L1损失和感知损失的组合,以提高图像的感知质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在AAPM CT-MAR基准上取得了state-of-the-art的性能。在仅使用16到128个配对训练样本的情况下,该方法在感知和放射学特征指标上均优于传统的深度学习方法。例如,在SSIM指标上,该方法相比于基线方法提升了显著的幅度,证明了其数据高效性和有效性。

🎯 应用场景

该研究成果可应用于临床CT图像的后处理,提高图像质量,辅助医生进行更准确的诊断。尤其是在金属植入物较多的患者中,该方法可以有效减少伪影,提高图像的可读性。未来,该方法有望推广到其他医学图像重建任务中,例如MRI图像重建等,具有广阔的应用前景。

📄 摘要(原文)

Metal artifacts from high-attenuation implants severely degrade CT image quality, obscuring critical anatomical structures and posing a challenge for standard deep learning methods that require extensive paired training data. We propose a paradigm shift: reframing artifact reduction as an in-context reasoning task by adapting a general-purpose vision-language diffusion foundation model via parameter-efficient Low-Rank Adaptation (LoRA). By leveraging rich visual priors, our approach achieves effective artifact suppression with only 16 to 128 paired training examples reducing data requirements by two orders of magnitude. Crucially, we demonstrate that domain adaptation is essential for hallucination mitigation; without it, foundation models interpret streak artifacts as erroneous natural objects (e.g., waffles or petri dishes). To ground the restoration, we propose a multi-reference conditioning strategy where clean anatomical exemplars from unrelated subjects are provided alongside the corrupted input, enabling the model to exploit category-specific context to infer uncorrupted anatomy. Extensive evaluation on the AAPM CT-MAR benchmark demonstrates that our method achieves state-of-the-art performance on perceptual and radiological-feature metrics . This work establishes that foundation models, when appropriately adapted, offer a scalable alternative for interpretable, data-efficient medical image reconstruction. Code is available at https://github.com/ahmetemirdagi/CT-EditMAR.