Reanimating Images using Neural Representations of Dynamic Stimuli

📄 arXiv: 2406.02659v3 📥 PDF

作者: Jacob Yeung, Andrew F. Luo, Gabriel Sarch, Margaret M. Henderson, Deva Ramanan, Michael J. Tarr

分类: q-bio.NC, cs.AI, cs.CV

发布日期: 2024-06-04 (更新: 2025-03-25)

备注: Project Page: https://brain-nrds.github.io

期刊: CVPR 2025 (oral)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

BrainNRDS:利用动态刺激神经表征重现图像,提升视频理解与脑活动解码。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频理解 脑活动解码 视频扩散模型 神经表征 动态视觉 光流估计 fMRI 生物启发

📋 核心要点

  1. 现有计算机视觉模型在理解动态运动方面存在不足,尤其是在处理真实世界复杂场景时。
  2. BrainNRDS利用视频扩散模型解耦静态图像表征与运动生成,结合fMRI脑活动进行分析。
  3. 实验表明,该方法能从脑活动中解码运动信息,并用于视频重现,优于传统方法。

📝 摘要(中文)

尽管计算机视觉模型在静态图像识别方面取得了显著进展,但在理解复杂、动态运动的任务中,它们仍然无法与人类的表现相媲美。在具身智能体面临复杂且富含运动的环境的现实场景中,这一点尤为明显。我们的方法BrainNRDS(动态刺激的脑神经表征)利用最先进的视频扩散模型将静态图像表征与运动生成解耦,从而能够利用fMRI脑活动来更深入地理解人类对动态视觉刺激的反应。反过来,我们也证明了关于大脑运动表征的信息可以增强人工系统中光流的预测。我们的新方法产生了四个主要发现:(1)视觉运动,以精细的、对象级分辨率的光流表示,可以从参与者观看视频刺激产生的脑活动中解码;(2)视频编码器在预测视频驱动的脑活动方面优于基于图像的模型;(3)仅基于视频的初始帧,大脑解码的运动信号能够实现逼真的视频重现;(4)我们扩展了先前的工作,实现了从视频驱动的脑活动中进行完整的视频解码。BrainNRDS 提高了我们对大脑如何在动态视觉场景中表示空间和时间信息的理解。我们的研究结果证明了将脑成像与视频扩散模型相结合,以开发更强大和生物学启发的计算机视觉系统的潜力。我们在本网站上展示了更多的解码和编码示例:https://brain-nrds.github.io/。

🔬 方法详解

问题定义:论文旨在解决计算机视觉模型在理解和处理动态视觉信息方面存在的局限性。现有方法难以模拟人类大脑对运动的感知和理解,尤其是在复杂场景下,导致在需要理解动态信息的任务中表现不佳。

核心思路:论文的核心思路是将视频理解问题分解为静态图像表征和运动生成两个部分,并利用视频扩散模型来学习运动信息。通过将大脑活动(fMRI数据)与视频扩散模型相结合,可以更好地理解大脑如何编码和处理动态视觉信息,并反过来利用这些信息来改进计算机视觉模型。

技术框架:BrainNRDS框架包含以下主要模块:1) 视频编码器:用于提取视频的特征表示。2) 脑活动编码器:将视频特征映射到预测的脑活动。3) 脑活动解码器:从脑活动中解码出运动信息(光流)。4) 视频扩散模型:利用解码的运动信息,结合初始帧,生成重现的视频。整体流程是,首先使用视频编码器提取视频特征,然后使用脑活动编码器预测脑活动,接着使用脑活动解码器从脑活动中解码出运动信息,最后使用视频扩散模型生成视频。

关键创新:该论文的关键创新在于将视频扩散模型与脑活动数据相结合,实现了一种新的视频理解和生成方法。与传统方法相比,该方法能够更好地模拟人类大脑对运动的感知和理解,并且能够利用脑活动信息来指导视频生成。此外,该方法还提出了一种新的脑活动解码方法,能够从脑活动中解码出精细的、对象级分辨率的光流信息。

关键设计:论文中使用了预训练的视频编码器和视频扩散模型,并针对脑活动数据设计了特定的编码器和解码器。损失函数包括脑活动预测损失和光流重建损失。具体的网络结构和参数设置在论文中有详细描述。此外,论文还使用了fMRI数据预处理和对齐等技术,以提高脑活动数据的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BrainNRDS能够从脑活动中解码出精细的、对象级分辨率的光流信息,并且能够利用这些信息生成逼真的视频。视频编码器在预测视频驱动的脑活动方面优于基于图像的模型。此外,该方法还实现了从脑活动中进行完整的视频解码,扩展了先前的工作。

🎯 应用场景

该研究成果可应用于开发更智能的视频分析系统,例如自动驾驶、机器人导航和视频监控。通过模拟人类大脑的视觉处理机制,可以提高计算机视觉系统在复杂动态环境中的鲁棒性和适应性。此外,该研究还有助于深入理解人类大脑的视觉认知过程,为神经科学研究提供新的工具和视角。

📄 摘要(原文)

While computer vision models have made incredible strides in static image recognition, they still do not match human performance in tasks that require the understanding of complex, dynamic motion. This is notably true for real-world scenarios where embodied agents face complex and motion-rich environments. Our approach, BrainNRDS (Brain-Neural Representations of Dynamic Stimuli), leverages state-of-the-art video diffusion models to decouple static image representation from motion generation, enabling us to utilize fMRI brain activity for a deeper understanding of human responses to dynamic visual stimuli. Conversely, we also demonstrate that information about the brain's representation of motion can enhance the prediction of optical flow in artificial systems. Our novel approach leads to four main findings: (1) Visual motion, represented as fine-grained, object-level resolution optical flow, can be decoded from brain activity generated by participants viewing video stimuli; (2) Video encoders outperform image-based models in predicting video-driven brain activity; (3) Brain-decoded motion signals enable realistic video reanimation based only on the initial frame of the video; and (4) We extend prior work to achieve full video decoding from video-driven brain activity. BrainNRDS advances our understanding of how the brain represents spatial and temporal information in dynamic visual scenes. Our findings demonstrate the potential of combining brain imaging with video diffusion models for developing more robust and biologically-inspired computer vision systems. We show additional decoding and encoding examples on this site: https://brain-nrds.github.io/.