Tell2Reg: Establishing spatial correspondence between images by the same language prompts

📄 arXiv: 2502.03118v1 📥 PDF

作者: Wen Yan, Qianye Yang, Shiqi Huang, Yipei Wang, Shonit Punwani, Mark Emberton, Vasilis Stavrinides, Yipeng Hu, Dean Barratt

分类: cs.CV, cs.AI, eess.IV

发布日期: 2025-02-05

备注: 5 pages, 3 figures, conference paper

🔗 代码/项目: GITHUB


💡 一句话要点

Tell2Reg:利用相同语言提示在图像间建立空间对应关系,实现免训练图像配准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像配准 多模态学习 语言提示 免训练 医学图像 GroundingDINO SAM

📋 核心要点

  1. 传统图像配准方法依赖于预测位移场或变换参数,需要大量标注数据进行训练,成本高昂且耗时。
  2. Tell2Reg利用预训练多模态模型,通过相同语言提示在不同图像上定位对应区域,实现免训练的图像配准。
  3. 实验表明,Tell2Reg在前列腺MR图像配准任务中优于无监督方法,性能与弱监督方法相当,并揭示了语言语义与空间对应之间的潜在联系。

📝 摘要(中文)

本研究提出了一种新的图像配准方法,该方法通过预训练的大型多模态模型(基于GroundingDINO和SAM)利用相同的语言提示在两幅不同的图像上预测对应的区域对,从而建立空间对应关系。这种方法无需训练,实现了一种全自动的配准算法,并可能推广到广泛的图像配准任务中。本文使用前列腺MR图像配准这一具有挑战性的任务进行了实验,该任务涉及患者间高度可变的强度和形态。Tell2Reg无需训练,消除了先前此配准任务所需的大量且耗时的数据管理和标注。实验结果表明,该方法优于无监督学习的配准方法,并且性能与弱监督方法相当。此外,定性结果表明,语言语义与空间对应之间存在潜在的相关性,包括语言提示区域的空间不变性以及获得局部和全局对应关系的语言提示的差异。

🔬 方法详解

问题定义:现有的图像配准方法,特别是针对医学图像,通常需要大量的标注数据进行训练,或者依赖于手工设计的特征。这些方法在处理患者间差异较大的图像时,例如前列腺MR图像,往往表现不佳。无监督方法虽然不需要标注,但性能通常不如监督方法。因此,如何降低对标注数据的依赖,同时保持甚至提高配准精度,是一个重要的挑战。

核心思路:Tell2Reg的核心思路是利用预训练的大型多模态模型,将图像配准问题转化为一个基于语言提示的区域定位问题。通过相同的语言提示,模型可以在不同的图像上定位到语义上对应的区域。这些对应区域可以用来建立图像之间的空间对应关系,从而实现配准。这种方法的核心在于利用了预训练模型强大的语义理解能力和跨模态对齐能力。

技术框架:Tell2Reg的整体框架包括以下几个主要步骤:1) 使用GroundingDINO模型,根据给定的语言提示,在源图像和目标图像上分别检测出对应的区域。2) 使用SAM (Segment Anything Model) 模型对检测到的区域进行分割,得到精确的分割掩码。3) 基于分割掩码,计算源图像和目标图像之间的变换参数,例如仿射变换或薄板样条变换。4) 使用计算得到的变换参数,将源图像配准到目标图像。

关键创新:Tell2Reg最重要的创新点在于它是一种完全免训练的图像配准方法。它不需要任何针对特定任务的训练数据,而是直接利用预训练的多模态模型来实现配准。这种方法极大地降低了对标注数据的依赖,并且具有很强的泛化能力。此外,该方法揭示了语言语义与空间对应之间存在潜在的相关性,为未来的研究提供了新的思路。

关键设计:Tell2Reg的关键设计包括:1) 使用GroundingDINO作为区域检测器,因为它具有强大的零样本检测能力,可以根据语言提示定位到图像中的特定区域。2) 使用SAM模型进行精确分割,以获得更准确的区域掩码。3) 使用基于分割掩码的变换参数估计方法,例如最小二乘法,来计算源图像和目标图像之间的变换关系。论文中没有明确提及具体的参数设置或损失函数,但可以推测使用了GroundingDINO和SAM的默认参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Tell2Reg在前列腺MR图像配准任务中取得了显著的成果。实验结果表明,该方法优于无监督学习的配准方法,并且性能与弱监督方法相当。更重要的是,Tell2Reg无需任何训练数据,这使得它在数据稀缺或标注成本高昂的场景下具有巨大的优势。此外,定性结果表明,语言语义与空间对应之间存在潜在的相关性,为未来的研究提供了新的方向。

🎯 应用场景

Tell2Reg具有广泛的应用前景,尤其是在医学图像配准领域。它可以用于多模态医学图像配准、跨患者图像配准、以及图像引导的手术导航等。该方法无需训练的特性使其能够快速部署到新的应用场景中,极大地降低了开发成本。此外,该方法还可以推广到其他需要建立图像之间空间对应关系的领域,例如遥感图像配准、机器人视觉等。

📄 摘要(原文)

Spatial correspondence can be represented by pairs of segmented regions, such that the image registration networks aim to segment corresponding regions rather than predicting displacement fields or transformation parameters. In this work, we show that such a corresponding region pair can be predicted by the same language prompt on two different images using the pre-trained large multimodal models based on GroundingDINO and SAM. This enables a fully automated and training-free registration algorithm, potentially generalisable to a wide range of image registration tasks. In this paper, we present experimental results using one of the challenging tasks, registering inter-subject prostate MR images, which involves both highly variable intensity and morphology between patients. Tell2Reg is training-free, eliminating the need for costly and time-consuming data curation and labelling that was previously required for this registration task. This approach outperforms unsupervised learning-based registration methods tested, and has a performance comparable to weakly-supervised methods. Additional qualitative results are also presented to suggest that, for the first time, there is a potential correlation between language semantics and spatial correspondence, including the spatial invariance in language-prompted regions and the difference in language prompts between the obtained local and global correspondences. Code is available at https://github.com/yanwenCi/Tell2Reg.git.