Arcee: Differentiable Recurrent State Chain for Generative Vision Modeling with Mamba SSMs

📄 arXiv: 2511.11243v2 📥 PDF

作者: Jitesh Chavan, Rohit Lal, Anand Kamat, Mengjia Xu

分类: cs.CV

发布日期: 2025-11-14 (更新: 2025-11-17)


💡 一句话要点

Arcee:利用Mamba SSMs的差分循环状态链,提升生成视觉建模性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 状态空间模型 Mamba 生成视觉建模 循环神经网络 图像生成

📋 核心要点

  1. 现有Vision Mamba模型在处理图像等非序列数据时,忽略了块间的状态信息传递,限制了模型的性能。
  2. Arcee通过跨块循环状态链,将前一个块的终端状态空间表示作为下一个块的初始条件,实现状态信息的有效传递。
  3. 实验表明,在CelebA-HQ图像生成任务上,Arcee显著降低了FID,表明其能有效提升生成视觉建模的性能。

📝 摘要(中文)

状态空间模型(SSMs),特别是Mamba,正越来越多地被用于长上下文序列建模,通过输入相关的因果选择性扫描操作提供线性时间聚合。沿着这条路线,最近的“Mamba-for-vision”变体主要探索多种扫描顺序,以放宽非序列信号(例如,图像)的严格因果关系。与保留跨块记忆不同,Mamba中选择性扫描操作的传统公式从零重新初始化每个块的状态空间动态,丢弃来自前一个块的终端状态空间表示(SSR)。Arcee,一个跨块循环状态链,重用每个块的终端状态空间表示作为下一个块的初始条件。跨块切换被构建为可微边界映射,其雅可比矩阵能够实现跨终端边界的端到端梯度流。Arcee与所有先前的“vision-mamba”变体兼容,无需参数,并且成本恒定且可忽略不计。从建模的角度来看,我们将终端SSR视为由输入上的因果传递引起的温和的方向先验,而不是非序列信号本身的估计器。为了量化影响,对于CelebA-HQ(256×256)上使用Flow Matching的无条件生成,Arcee在单扫描顺序Zigzag Mamba基线上将FID↓从82.81降低到15.33(降低5.4倍)。高效的CUDA内核和训练代码将被发布,以支持严谨和可重复的研究。

🔬 方法详解

问题定义:现有的Vision Mamba模型,例如那些采用多种扫描顺序来处理图像数据的模型,通常在每个块中重新初始化状态空间动态,丢弃了前一个块的终端状态空间表示(SSR)。这种做法忽略了跨块的信息依赖,可能限制了模型捕捉图像全局结构和长期依赖关系的能力。

核心思路:Arcee的核心思路是利用前一个Mamba块的终端状态空间表示(SSR)作为下一个块的初始状态。这种做法类似于在循环神经网络中传递隐藏状态,允许模型在处理图像的不同区域时保持上下文信息。作者认为终端SSR可以作为一种由因果传递引起的温和的方向先验,有助于指导后续块的处理。

技术框架:Arcee的整体框架是在现有的Vision Mamba架构上添加一个跨块循环状态链。具体来说,每个Mamba块在处理完输入后,会输出一个终端状态空间表示。Arcee将这个终端状态空间表示通过一个可微边界映射传递给下一个块,作为其初始状态。这个过程在所有块之间循环进行,形成一个状态链。

关键创新:Arcee的关键创新在于引入了跨块循环状态链,允许Mamba模型在处理图像时保持上下文信息。此外,Arcee使用可微边界映射来实现状态传递,使得整个模型可以进行端到端的训练。Arcee与现有的Vision Mamba变体兼容,并且无需额外的参数,使其易于集成到现有模型中。

关键设计:Arcee的关键设计在于可微边界映射。这个映射将前一个块的终端状态空间表示转换为下一个块的初始状态。作者没有指定具体的映射函数,而是允许模型通过学习来确定最佳的映射方式。这使得Arcee具有很强的灵活性和适应性。此外,Arcee的设计目标是保持与现有Vision Mamba变体的兼容性,因此没有引入任何新的参数或复杂的网络结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Arcee在CelebA-HQ(256×256)数据集上的无条件图像生成任务中取得了显著的性能提升。使用Flow Matching作为生成方法,Arcee在单扫描顺序Zigzag Mamba基线上将FID从82.81降低到15.33,降低了5.4倍。这一结果表明,Arcee能够有效地利用跨块的状态信息,从而生成更高质量的图像。

🎯 应用场景

Arcee的潜在应用领域包括图像生成、图像修复、视频生成等。通过利用跨块的状态信息传递,Arcee可以生成更加连贯和高质量的图像和视频。此外,Arcee还可以应用于其他需要处理长序列数据的任务,例如自然语言处理和语音识别。该研究的实际价值在于提升生成模型的性能和效率,未来可能推动相关领域的进一步发展。

📄 摘要(原文)

State-space models (SSMs), Mamba in particular, are increasingly adopted for long-context sequence modeling, providing linear-time aggregation via an input-dependent, causal selective-scan operation. Along this line, recent "Mamba-for-vision" variants largely explore multiple scan orders to relax strict causality for non-sequential signals (e.g., images). Rather than preserving cross-block memory, the conventional formulation of the selective-scan operation in Mamba reinitializes each block's state-space dynamics from zero, discarding the terminal state-space representation (SSR) from the previous block. Arcee, a cross-block recurrent state chain, reuses each block's terminal state-space representation as the initial condition for the next block. Handoff across blocks is constructed as a differentiable boundary map whose Jacobian enables end-to-end gradient flow across terminal boundaries. Key to practicality, Arcee is compatible with all prior "vision-mamba" variants, parameter-free, and incurs constant, negligible cost. As a modeling perspective, we view terminal SSR as a mild directional prior induced by a causal pass over the input, rather than an estimator of the non-sequential signal itself. To quantify the impact, for unconditional generation on CelebA-HQ (256$\times$256) with Flow Matching, Arcee reduces FID$\downarrow$ from $82.81$ to $15.33$ ($5.4\times$ lower) on a single scan-order Zigzag Mamba baseline. Efficient CUDA kernels and training code will be released to support rigorous and reproducible research.