Disentangle-then-Align: Non-Iterative Hybrid Multimodal Image Registration via Cross-Scale Feature Disentanglement

作者: Chunlei Zhang, Jiahao Xia, Yun Xiao, Bo Jiang, Jian Zhang

分类: cs.CV

发布日期: 2026-03-20

备注: Accepted by CVPR 2026 main track

💡 一句话要点

提出HRNet，通过解耦和对齐实现非迭代混合多模态图像配准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态图像配准 特征解耦 跨尺度特征 混合变换 非迭代配准

📋 核心要点

现有方法在多模态配准中，共享特征空间易受模态私有信息干扰，影响配准精度。
HRNet通过跨尺度解耦和自适应投影，抑制模态私有信息，构建稳定的共享特征空间。
HRNet采用非迭代方式，由粗到精预测全局刚性和局部变形参数，实现高效配准。

📝 摘要（中文）

多模态图像配准是下游跨模态分析的基础任务和前提。尽管在共享特征提取和多尺度架构方面取得了进展，但仍存在两个关键限制。首先，一些方法使用解耦来学习共享特征，但主要正则化共享部分，导致模态私有信息泄露到共享空间。其次，大多数多尺度框架仅支持单一变换类型，限制了其在全局错位和局部变形共存时的适用性。为了解决这些问题，我们将混合多模态配准建模为联合学习稳定的共享特征空间和统一的混合变换。基于此，我们提出了HRNet，一个混合配准网络，将表示解耦与混合参数预测相结合。带有模态特定批归一化（MSBN）的共享骨干网络提取多尺度特征，而跨尺度解耦和自适应投影（CDAP）模块抑制模态私有信息，并将共享特征投影到稳定的匹配子空间。基于此共享空间，混合参数预测模块（HPPM）执行非迭代的由粗到精的全局刚性参数和变形场估计，并将它们融合为连贯的变形场。在四个多模态数据集上的大量实验表明，该方法在刚性和非刚性配准任务上均达到了最先进的性能。代码可在项目网站上找到。

🔬 方法详解

问题定义：多模态图像配准旨在将来自不同模态（如CT和MRI）的图像对齐。现有方法的痛点在于，提取的共享特征空间容易受到模态特有信息的干扰，导致配准精度下降。此外，许多方法仅支持单一类型的变换，无法同时处理全局错位和局部变形的情况。

核心思路：HRNet的核心思路是将多模态图像配准问题分解为两个关键步骤：首先，学习一个稳定的、模态无关的共享特征空间；其次，基于该共享空间，预测一个统一的混合变换，该变换能够同时处理全局刚性变换和局部非刚性变换。通过解耦模态特有信息并对齐共享特征，可以提高配准的准确性和鲁棒性。

技术框架：HRNet的整体架构包括以下几个主要模块：1) 共享骨干网络：使用带有模态特定批归一化（MSBN）的共享骨干网络提取多尺度特征。2) 跨尺度解耦和自适应投影（CDAP）模块：抑制模态私有信息，并将共享特征投影到稳定的匹配子空间。3) 混合参数预测模块（HPPM）：执行非迭代的由粗到精的全局刚性参数和变形场估计，并将它们融合为连贯的变形场。

关键创新：HRNet的关键创新在于CDAP模块和HPPM模块。CDAP模块通过跨尺度解耦，有效地抑制了模态私有信息，从而构建了更稳定的共享特征空间。HPPM模块则实现了非迭代的混合变换预测，避免了传统迭代方法的计算开销和收敛问题。

关键设计：MSBN用于规范化每个模态的特征，以减少模态差异。CDAP模块使用自适应投影来对齐不同尺度的特征。HPPM模块采用由粗到精的策略，首先估计全局刚性变换，然后估计局部变形场。损失函数的设计旨在平衡配准精度和变形场的平滑性。

🖼️ 关键图片

📊 实验亮点

HRNet在四个多模态数据集上进行了广泛的实验，结果表明其在刚性和非刚性配准任务上均达到了最先进的性能。具体而言，HRNet在配准精度方面显著优于现有的方法，并且具有更快的计算速度，证明了其有效性和实用性。

🎯 应用场景

该研究成果可广泛应用于医学图像分析领域，例如多模态医学图像融合、图像引导手术、以及基于多模态信息的疾病诊断和治疗。此外，该方法也可扩展到其他领域，如遥感图像配准、计算机视觉和机器人导航等，具有重要的实际应用价值和广阔的应用前景。

📄 摘要（原文）

Multimodal image registration is a fundamental task and a prerequisite for downstream cross-modal analysis. Despite recent progress in shared feature extraction and multi-scale architectures, two key limitations remain. First, some methods use disentanglement to learn shared features but mainly regularize the shared part, allowing modality-private cues to leak into the shared space. Second, most multi-scale frameworks support only a single transformation type, limiting their applicability when global misalignment and local deformation coexist. To address these issues, we formulate hybrid multimodal registration as jointly learning a stable shared feature space and a unified hybrid transformation. Based on this view, we propose HRNet, a Hybrid Registration Network that couples representation disentanglement with hybrid parameter prediction. A shared backbone with Modality-Specific Batch Normalization (MSBN) extracts multi-scale features, while a Cross-scale Disentanglement and Adaptive Projection (CDAP) module suppresses modality-private cues and projects shared features into a stable subspace for matching. Built on this shared space, a Hybrid Parameter Prediction Module (HPPM) performs non-iterative coarse-to-fine estimation of global rigid parameters and deformation fields, which are fused into a coherent deformation field. Extensive experiments on four multimodal datasets demonstrate state-of-the-art performance on rigid and non-rigid registration tasks. The code is available at the project website.

Disentangle-then-Align: Non-Iterative Hybrid Multimodal Image Registration via Cross-Scale Feature Disentanglement

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理