CLIMB: Controllable Longitudinal Brain Image Generation using Mamba-based Latent Diffusion Model and Gaussian-aligned Autoencoder
作者: Duy-Phuong Dao, Muhammad Taqiyuddin, Jahae Kim, Sang-Heon Lee, Hye-Won Jung, Jaehoo Choi, Hyung-Jeong Yang
分类: cs.CV, cs.AI
发布日期: 2026-04-17
备注: 18 pages, 5 figures, 5 tables
💡 一句话要点
CLIMB:基于Mamba和高斯对齐自编码器的可控纵向脑部图像生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 纵向脑部图像生成 潜在扩散模型 状态空间模型 Mamba 高斯对齐自编码器 医学影像 阿尔茨海默病
📋 核心要点
- 现有基于自注意力的潜在扩散模型计算成本高昂,限制了其在纵向脑部图像生成中的应用。
- CLIMB利用状态空间模型和高斯对齐自编码器,在降低计算成本的同时,提升了图像生成质量和可控性。
- 实验表明,CLIMB在阿尔茨海默病神经影像数据集上取得了显著的性能提升,结构相似性指数达到0.9433。
📝 摘要(中文)
本研究提出CLIMB,一种基于状态空间潜在扩散模型的可控纵向脑部图像生成框架,用于模拟脑部结构的随时间变化。CLIMB以基线MRI扫描及其采集年龄为基础输入,并结合预测年龄、性别、疾病状态、遗传信息和脑结构体积等多个条件变量,以增强解剖结构变化的时间建模。与依赖自注意力模块的现有LDM方法不同,CLIMB利用状态空间模型架构,显著降低计算开销,同时保持高质量的图像合成。此外,引入高斯对齐自编码器,提取符合先验分布的潜在表示,避免了传统变分自编码器中固有的采样噪声。在包含1390名参与者的6306个MRI扫描的阿尔茨海默病神经影像计划数据集上训练和评估了该模型。通过将生成的图像与真实的MRI扫描进行比较,CLIMB实现了0.9433的结构相似性指数,表明相对于现有方法有显著改进。
🔬 方法详解
问题定义:论文旨在解决纵向脑部图像生成问题,即预测患者脑部结构随时间的变化。现有基于潜在扩散模型(LDM)的方法,特别是那些依赖自注意力机制的方法,在处理高分辨率医学图像时计算成本过高,难以有效捕捉时间序列上的结构变化。
核心思路:论文的核心思路是利用状态空间模型(SSM)替代自注意力机制,以降低计算复杂度,同时引入高斯对齐自编码器,以获得更符合先验分布的潜在表示,从而提升生成图像的质量和可控性。通过结合基线MRI扫描、年龄以及其他条件变量,实现对脑部结构随时间演变的精确建模。
技术框架:CLIMB框架包含两个主要组成部分:高斯对齐自编码器和基于Mamba的状态空间潜在扩散模型。首先,高斯对齐自编码器将输入MRI图像编码到潜在空间,并确保潜在表示符合高斯分布。然后,基于Mamba的扩散模型在潜在空间中进行训练,学习从噪声到真实脑部图像的逆扩散过程。在生成阶段,模型以基线MRI扫描、年龄和其他条件变量作为输入,生成预测的纵向脑部图像。
关键创新:论文的关键创新在于以下两点:一是使用Mamba状态空间模型替代传统的自注意力机制,显著降低了计算成本,使得模型能够处理更大规模的数据和更高分辨率的图像;二是引入高斯对齐自编码器,通过约束潜在表示的分布,减少了生成过程中的噪声,提高了图像质量。
关键设计:高斯对齐自编码器通过最小化编码器输出与标准高斯分布之间的KL散度来实现潜在表示的高斯对齐。Mamba状态空间模型采用选择性扫描机制,能够有效地捕捉序列数据中的长程依赖关系。扩散模型采用噪声预测网络,通过迭代去噪过程生成图像。损失函数包括重构损失、KL散度损失和扩散模型的训练损失。
📊 实验亮点
CLIMB在阿尔茨海默病神经影像计划(ADNI)数据集上进行了评估,结果表明,CLIMB生成的脑部MRI图像与真实图像具有很高的相似度,结构相似性指数(SSIM)达到了0.9433,显著优于现有的基于自注意力机制的潜在扩散模型。这表明CLIMB在纵向脑部图像生成方面具有显著的优势。
🎯 应用场景
CLIMB在医学影像领域具有广泛的应用前景,可用于阿尔茨海默病等神经退行性疾病的早期诊断、预后评估和治疗方案制定。通过预测患者脑部结构随时间的变化,医生可以更早地发现疾病迹象,并制定个性化的治疗方案。此外,该模型还可以用于生成合成脑部MRI数据,用于训练和评估其他医学影像分析算法。
📄 摘要(原文)
Latent diffusion models have emerged as powerful generative models in medical imaging, enabling the synthesis of high quality brain magnetic resonance imaging scans. In particular, predicting the evolution of a patients brain can aid in early intervention, prognosis, and treatment planning. In this study, we introduce CLIMB, Controllable Longitudinal brain Image generation via state space based latent diffusion model, an advanced framework for modeling temporal changes in brain structure. CLIMB is designed to model the structural evolution of the brain structure over time, utilizing a baseline MRI scan and its acquisition age as foundational inputs. Additionally, multiple conditional variables, including projected age, gender, disease status, genetic information, and brain structure volumes, are incorporated to enhance the temporal modeling of anatomical changes. Unlike existing LDM methods that rely on self attention modules, which effectively capture contextual information from input images but are computationally expensive, our approach leverages state space, a state space model architecture that substantially reduces computational overhead while preserving high-quality image synthesis. Furthermore, we introduce a Gaussian-aligned autoencoder that extracts latent representations conforming to prior distributions without the sampling noise inherent in conventional variational autoencoders. We train and evaluate our proposed model on the Alzheimers Disease Neuroimaging Initiative dataset, consisting of 6,306 MRI scans from 1,390 participants. By comparing generated images with real MRI scans, CLIMB achieves a structural similarity index of 0.9433, demonstrating notable improvements over existing methods.