Large Language Models for Multimodal Deformable Image Registration

📄 arXiv: 2408.10703v1 📥 PDF

作者: Mingrui Ma, Weijie Wang, Jie Ning, Jianfeng He, Nicu Sebe, Bruno Lepri

分类: cs.CV

发布日期: 2024-08-20

🔗 代码/项目: GITHUB


💡 一句话要点

提出LLM-Morph框架,利用大语言模型解决多模态可变形图像配准难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态图像配准 大语言模型 医学影像 深度学习 特征对齐

📋 核心要点

  1. 多模态图像配准的关键挑战在于如何有效对齐不同模态图像间的特征,现有方法在信息保留和跨模态对齐上存在不足。
  2. LLM-Morph框架的核心思想是利用预训练大语言模型强大的特征提取和对齐能力,通过适配器和LoRA微调,弥合模态差异。
  3. 实验结果表明,LLM-Morph在MR-CT腹部和SR-Reg脑部数据集上表现出色,验证了预训练LLM在多模态图像配准中的潜力。

📝 摘要(中文)

多模态可变形图像配准(MDIR)的挑战在于不同模态图像之间特征的转换和对齐。生成模型(GM)无法从源模态充分保留必要信息到目标模态,而非GM则难以对齐跨模态特征。本文提出了一种新颖的由粗到精的MDIR框架LLM-Morph,它适用于各种预训练的大语言模型(LLM),通过对齐来自不同模态医学图像的深度特征来解决这些问题。具体而言,我们首先利用CNN编码器从跨模态图像对中提取深度视觉特征,然后使用第一个适配器调整这些tokens,并在预训练的LLM中使用LoRA来微调它们的权重,这两者都旨在消除预训练LLM和MDIR任务之间的领域差距。第三,为了对齐tokens,我们利用另外四个适配器将LLM编码的tokens转换为多尺度视觉特征,生成多尺度形变场,并促进由粗到精的MDIR任务。在MR-CT腹部和SR-Reg脑部数据集上的大量实验证明了我们框架的有效性以及预训练LLM在MDIR任务中的潜力。代码可在https://github.com/ninjannn/LLM-Morph获取。

🔬 方法详解

问题定义:论文旨在解决多模态可变形图像配准(MDIR)问题。现有方法,如生成模型,难以在模态转换过程中保留足够的信息;而非生成模型则难以有效对齐不同模态间的特征,导致配准精度受限。

核心思路:论文的核心思路是利用预训练大语言模型(LLM)强大的特征提取和语义理解能力,将不同模态的图像特征映射到LLM的特征空间中进行对齐。通过适配器和LoRA微调,使LLM适应MDIR任务,从而实现更精确的配准。

技术框架:LLM-Morph框架采用由粗到精的配准策略,主要包含以下模块:1) CNN编码器:提取跨模态图像对的深度视觉特征。2) 适配器1和LoRA微调:调整视觉特征,消除LLM预训练领域与MDIR任务之间的差距。3) LLM编码器:利用微调后的LLM对特征进行编码。4) 适配器2-5:将LLM编码的tokens转换为多尺度视觉特征,生成多尺度形变场。5) 形变场融合:利用多尺度形变场进行由粗到精的图像配准。

关键创新:该方法最重要的创新点在于将预训练的大语言模型引入到多模态图像配准任务中。与传统方法相比,LLM能够学习到更丰富的图像特征表示,并利用其强大的语义理解能力实现更精确的跨模态特征对齐。

关键设计:论文使用了多个适配器来调整特征,包括一个用于消除领域差距的适配器和四个用于生成多尺度视觉特征的适配器。此外,使用LoRA(Low-Rank Adaptation)技术对LLM进行微调,以降低计算成本并防止过拟合。损失函数未知,网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM-Morph框架在MR-CT腹部和SR-Reg脑部数据集上取得了显著的配准效果。具体性能数据和对比基线未知,但论文强调了该框架的有效性以及预训练LLM在MDIR任务中的潜力。

🎯 应用场景

该研究成果可应用于医学影像分析、诊断和治疗等领域。例如,在放射治疗计划中,可以将CT图像与MR图像进行精确配准,从而更准确地定位肿瘤,提高治疗效果。此外,该方法还可用于多模态医学图像数据库的构建和检索,以及计算机辅助诊断系统的开发。

📄 摘要(原文)

The challenge of Multimodal Deformable Image Registration (MDIR) lies in the conversion and alignment of features between images of different modalities. Generative models (GMs) cannot retain the necessary information enough from the source modality to the target one, while non-GMs struggle to align features across these two modalities. In this paper, we propose a novel coarse-to-fine MDIR framework,LLM-Morph, which is applicable to various pre-trained Large Language Models (LLMs) to solve these concerns by aligning the deep features from different modal medical images. Specifically, we first utilize a CNN encoder to extract deep visual features from cross-modal image pairs, then we use the first adapter to adjust these tokens, and use LoRA in pre-trained LLMs to fine-tune their weights, both aimed at eliminating the domain gap between the pre-trained LLMs and the MDIR task. Third, for the alignment of tokens, we utilize other four adapters to transform the LLM-encoded tokens into multi-scale visual features, generating multi-scale deformation fields and facilitating the coarse-to-fine MDIR task. Extensive experiments in MR-CT Abdomen and SR-Reg Brain datasets demonstrate the effectiveness of our framework and the potential of pre-trained LLMs for MDIR task. Our code is availabel at: https://github.com/ninjannn/LLM-Morph.