IMPACT: A Generic Semantic Loss for Multimodal Medical Image Registration

作者: Valentin Boussot, Cédric Hémon, Jean-Claude Nunes, Jason Dowling, Simon Rouzé, Caroline Lafond, Anaïs Barateau, Jean-Louis Dillenseger

分类: cs.CV, cs.LG

发布日期: 2025-03-31 (更新: 2025-05-16)

备注: Submitted to IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). This is a preprint version and has not been peer-reviewed

💡 一句话要点

IMPACT：一种通用的多模态医学图像配准语义损失函数

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学图像配准 多模态配准 深度学习 语义相似性 预训练模型

📋 核心要点

医学图像配准面临多模态图像间差异大、噪声伪影多等挑战，传统方法依赖手工特征或特定任务训练，泛化性不足。
IMPACT利用大规模预训练分割模型的深度特征进行语义相似性度量，无需额外训练，实现跨模态图像的鲁棒配准。
实验表明，IMPACT在胸部CT/CBCT和盆腔MR/CT等数据集上，显著提升了配准精度，并对噪声和伪影具有较强的鲁棒性。

📝 摘要（中文）

医学图像配准在医学成像中至关重要，它能够精确对齐解剖结构，用于诊断、治疗计划、图像引导干预和纵向监测。本研究提出了一种新的相似性度量方法IMPACT（Image Metric with Pretrained model-Agnostic Comparison for Transmodality registration），用于鲁棒的多模态图像配准。IMPACT并非依赖原始强度、手工设计的描述符或特定任务的训练，而是基于大规模预训练分割模型提取的深度特征的比较，定义了一种语义相似性度量。通过利用TotalSegmentator、Segment Anything (SAM)和其他基础网络等模型的表征，IMPACT提供了一种任务无关、免训练的解决方案，可以推广到各种成像模式。这些最初为分割而训练的特征，提供了强大的空间对应和语义对齐能力，使其自然适用于配准。该方法可以无缝集成到算法（Elastix）和基于学习（VoxelMorph）的框架中，从而利用各自的优势。IMPACT在五个具有挑战性的3D配准任务中进行了评估，涉及胸部CT/CBCT和盆腔MR/CT数据集。定量指标，包括目标配准误差和Dice相似系数，表明在解剖结构对齐方面，相对于基线方法有持续的改进。定性分析进一步突出了该度量在存在噪声、伪影和模态变化时的鲁棒性。凭借其多功能性、效率和在各种任务中的强大性能，IMPACT为推进临床和研究环境中的多模态图像配准提供了一个强大的解决方案。

🔬 方法详解

问题定义：多模态医学图像配准旨在将来自不同成像模态（如CT、MRI）的图像对齐，以便进行诊断、治疗计划等。现有方法，如基于强度、手工特征或任务特定训练的方法，难以应对模态差异大、噪声伪影多的情况，泛化能力有限。

核心思路：IMPACT的核心在于利用大规模预训练的分割模型提取的深度特征，这些特征蕴含丰富的语义信息和空间对应关系，能够有效克服模态差异。通过比较这些深度特征的相似性，实现跨模态图像的配准。这种方法无需针对特定任务进行训练，具有良好的泛化能力。

技术框架：IMPACT可以集成到现有的配准框架中，如基于算法的Elastix和基于学习的VoxelMorph。其主要流程包括：1) 使用预训练的分割模型（如TotalSegmentator、SAM）提取待配准图像的深度特征；2) 计算两幅图像深度特征之间的相似性，得到相似性度量；3) 利用该相似性度量，驱动配准算法进行图像对齐。

关键创新：IMPACT最重要的创新在于其语义相似性度量方式，它摆脱了对原始图像强度或手工特征的依赖，而是利用预训练分割模型的深度特征进行比较。这种方法能够有效提取图像的语义信息，从而实现更鲁棒的跨模态配准。

关键设计：IMPACT的关键设计在于选择合适的预训练分割模型和相似性度量方法。论文中使用了TotalSegmentator和SAM等模型，这些模型在大规模数据集上进行了预训练，具有强大的分割能力。相似性度量方面，可以选择余弦相似度等方法来衡量深度特征之间的相似性。

🖼️ 关键图片

📊 实验亮点

IMPACT在五个3D配准任务中进行了评估，涉及胸部CT/CBCT和盆腔MR/CT数据集。实验结果表明，IMPACT在目标配准误差和Dice相似系数等指标上，均优于基线方法，证明了其在解剖结构对齐方面的有效性。定性分析也表明，IMPACT对噪声、伪影和模态变化具有较强的鲁棒性。

🎯 应用场景

IMPACT可广泛应用于临床医学图像配准，例如多模态影像融合辅助诊断、放疗计划制定、手术导航等。其无需训练的特性使其易于部署和推广，有望提升临床工作效率和诊断准确性。未来，可进一步探索其在其他医学影像任务中的应用，如图像分割、病灶检测等。

📄 摘要（原文）

Image registration is fundamental in medical imaging, enabling precise alignment of anatomical structures for diagnosis, treatment planning, image-guided interventions, and longitudinal monitoring. This work introduces IMPACT (Image Metric with Pretrained model-Agnostic Comparison for Transmodality registration), a novel similarity metric designed for robust multimodal image registration. Rather than relying on raw intensities, handcrafted descriptors, or task-specific training, IMPACT defines a semantic similarity measure based on the comparison of deep features extracted from large-scale pretrained segmentation models. By leveraging representations from models such as TotalSegmentator, Segment Anything (SAM), and other foundation networks, IMPACT provides a task-agnostic, training-free solution that generalizes across imaging modalities. These features, originally trained for segmentation, offer strong spatial correspondence and semantic alignment capabilities, making them naturally suited for registration. The method integrates seamlessly into both algorithmic (Elastix) and learning-based (VoxelMorph) frameworks, leveraging the strengths of each. IMPACT was evaluated on five challenging 3D registration tasks involving thoracic CT/CBCT and pelvic MR/CT datasets. Quantitative metrics, including Target Registration Error and Dice Similarity Coefficient, demonstrated consistent improvements in anatomical alignment over baseline methods. Qualitative analyses further highlighted the robustness of the proposed metric in the presence of noise, artifacts, and modality variations. With its versatility, efficiency, and strong performance across diverse tasks, IMPACT offers a powerful solution for advancing multimodal image registration in both clinical and research settings.

IMPACT: A Generic Semantic Loss for Multimodal Medical Image Registration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理