Dynadiff: Single-stage Decoding of Images from Continuously Evolving fMRI
作者: Marlène Careil, Yohann Benchetrit, Jean-Rémi King
分类: cs.CV
发布日期: 2025-05-20
💡 一句话要点
Dynadiff:单阶段解码动态fMRI生成图像,提升时间分辨率和语义重建效果
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 脑-图像解码 功能磁共振成像 扩散模型 时间分辨 神经活动 图像重建 单阶段解码
📋 核心要点
- 现有脑-图像解码方法依赖复杂流程和预处理,压缩时间维度,限制了时间分辨解码器的发展。
- Dynadiff是一种单阶段扩散模型,直接从动态fMRI记录重建图像,简化训练并提升时间分辨率。
- 实验表明,Dynadiff在时间分辨fMRI信号上优于现有方法,尤其在高层语义图像重建方面表现突出。
📝 摘要(中文)
脑-图像解码领域受益于生成AI模型的进步和高场功能磁共振成像(fMRI)数据的可用性。然而,现有方法依赖复杂的多阶段流程和预处理步骤,通常会压缩大脑记录的时间维度,限制了时间分辨脑解码器的发展。本文提出了Dynadiff(用于图像重建的动态神经活动扩散),一种新的单阶段扩散模型,旨在从动态演化的fMRI记录中重建图像。该方法有三个主要贡献:简化了训练过程;在时间分辨fMRI信号上优于现有模型,尤其是在高层语义图像重建指标上,同时在压缩时间的预处理fMRI数据上保持竞争力;能够精确表征大脑活动中图像表征的演变。这项工作为时间分辨脑-图像解码奠定了基础。
🔬 方法详解
问题定义:现有脑-图像解码方法通常采用多阶段流程,需要复杂的预处理步骤,并且为了降低计算复杂度,往往会压缩fMRI数据的时间维度。这导致时间分辨能力受限,无法充分利用动态变化的神经活动信息。因此,如何设计一种能够直接从动态fMRI数据中解码图像,并保持高时间分辨率的方法是一个关键问题。
核心思路:Dynadiff的核心思路是利用扩散模型强大的生成能力,直接将动态变化的fMRI信号映射到图像空间。通过设计合适的网络结构和训练策略,使模型能够学习到fMRI信号与图像之间的复杂关系,从而实现单阶段的图像重建。这种方法避免了传统方法中复杂的预处理和多阶段流程,能够更好地保留fMRI数据的时间信息。
技术框架:Dynadiff采用单阶段的扩散模型架构。该模型接收动态fMRI信号作为输入,通过一系列的神经网络层,逐步将噪声图像转化为与fMRI信号对应的图像。整个框架包含一个编码器用于提取fMRI信号的特征,以及一个扩散模型用于图像生成。编码器将fMRI信号映射到扩散模型的潜在空间,扩散模型则负责从潜在空间生成图像。
关键创新:Dynadiff的关键创新在于其单阶段的解码方式和对动态fMRI信号的处理能力。与现有方法相比,Dynadiff无需复杂的预处理和多阶段流程,能够直接从动态fMRI信号中重建图像,从而更好地保留了时间信息。此外,Dynadiff还通过设计合适的网络结构和训练策略,提高了图像重建的质量和语义一致性。
关键设计:Dynadiff的关键设计包括:1) 使用Transformer网络作为fMRI信号的编码器,以捕捉时间序列中的依赖关系;2) 采用条件扩散模型,将fMRI信号作为条件输入,指导图像生成过程;3) 使用感知损失和对抗损失来提高图像重建的质量和真实感;4) 设计了一种新的训练策略,以平衡重建质量和时间分辨率。
🖼️ 关键图片
📊 实验亮点
Dynadiff在时间分辨fMRI信号上的图像重建效果优于现有方法,尤其是在高层语义指标(如CLIP score)上取得了显著提升。实验结果表明,Dynadiff能够更准确地重建图像的语义内容,并更好地捕捉大脑活动中图像表征的演变过程。此外,Dynadiff在预处理的fMRI数据上也能保持与现有方法相当的性能。
🎯 应用场景
Dynadiff具有广泛的应用前景,例如:用于研究大脑如何表征视觉信息,揭示认知过程的神经机制;开发新型脑机接口,实现基于大脑活动控制的图像生成和编辑;辅助临床诊断,通过分析患者的脑活动来识别视觉障碍或认知功能障碍。该研究的未来影响在于推动时间分辨脑-图像解码技术的发展,为理解大脑功能和开发新型神经技术提供新的工具。
📄 摘要(原文)
Brain-to-image decoding has been recently propelled by the progress in generative AI models and the availability of large ultra-high field functional Magnetic Resonance Imaging (fMRI). However, current approaches depend on complicated multi-stage pipelines and preprocessing steps that typically collapse the temporal dimension of brain recordings, thereby limiting time-resolved brain decoders. Here, we introduce Dynadiff (Dynamic Neural Activity Diffusion for Image Reconstruction), a new single-stage diffusion model designed for reconstructing images from dynamically evolving fMRI recordings. Our approach offers three main contributions. First, Dynadiff simplifies training as compared to existing approaches. Second, our model outperforms state-of-the-art models on time-resolved fMRI signals, especially on high-level semantic image reconstruction metrics, while remaining competitive on preprocessed fMRI data that collapse time. Third, this approach allows a precise characterization of the evolution of image representations in brain activity. Overall, this work lays the foundation for time-resolved brain-to-image decoding.