DSS-GAN: Directional State Space GAN with Mamba backbone for Class-Conditional Image Synthesis
作者: Aleksander Ogonowski, Konrad Klimaszewski, Przemysław Rokita
分类: cs.LG, cs.CV
发布日期: 2026-03-18
💡 一句话要点
DSS-GAN:首个采用Mamba骨干网络的条件图像生成对抗网络,提升图像合成质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 生成对抗网络 图像合成 Mamba 状态空间模型 条件生成 潜在空间 定向潜在路由
📋 核心要点
- 现有GAN在类条件图像生成中,全局信号注入方式缺乏对潜在空间细粒度控制,限制了生成图像的多样性和可控性。
- DSS-GAN通过定向潜在路由(DLR)机制,将潜在向量分解为方向性子向量,并与类别信息耦合,实现特征级的精细调制。
- 实验表明,DSS-GAN在多个数据集上超越StyleGAN2-ADA,在FID、KID和精确率-召回率等指标上均有显著提升。
📝 摘要(中文)
本文提出了DSS-GAN,这是第一个采用Mamba作为分层生成器骨干网络,用于噪声到图像合成的生成对抗网络。核心贡献是定向潜在路由(DLR),这是一种新颖的条件机制,它将潜在向量分解为方向特定的子向量,每个子向量与类嵌入联合投影,以产生相应Mamba扫描的特征级仿射调制。与注入全局信号的传统类条件作用不同,DLR沿着特征图的不同空间轴耦合类身份和潜在结构,并一致地应用于所有生成尺度。DSS-GAN在多个测试数据集上实现了比StyleGAN2-ADA更好的FID、KID和精确率-召回率分数。对潜在空间的分析表明,方向子向量表现出可测量的专业化:沿着各个分量扰动会在合成图像中产生结构化的、方向相关的变化。
🔬 方法详解
问题定义:现有的类条件图像生成GAN通常采用全局信号注入的方式,将类别信息直接融入到生成器的特征图中。这种方式缺乏对潜在空间方向的细粒度控制,导致生成图像的多样性和可控性受限。此外,传统GAN的生成器骨干网络在长程依赖建模方面存在不足,影响了生成图像的全局一致性。
核心思路:DSS-GAN的核心思路是利用Mamba架构强大的序列建模能力,以及提出的定向潜在路由(DLR)机制,实现对潜在空间方向的精细控制和类别信息的有效融合。通过将潜在向量分解为方向性子向量,并与类别信息进行特征级的仿射调制,DSS-GAN能够生成更具多样性和可控性的图像。
技术框架:DSS-GAN的整体架构是一个标准的生成对抗网络,其中生成器采用Mamba作为骨干网络。生成器的输入是噪声向量和类别标签。噪声向量首先通过DLR机制分解为方向性子向量,然后每个子向量与类别嵌入进行联合投影,生成特征级的仿射调制参数。这些参数用于对Mamba扫描的特征图进行调制,从而将类别信息融入到生成过程中。判别器采用传统的卷积神经网络结构,用于区分生成图像和真实图像。
关键创新:DSS-GAN最重要的技术创新点是定向潜在路由(DLR)机制。DLR机制将潜在向量分解为方向性子向量,并与类别信息进行特征级的仿射调制,实现了对潜在空间方向的精细控制。与传统的全局信号注入方式相比,DLR机制能够更好地利用潜在空间的信息,生成更具多样性和可控性的图像。此外,采用Mamba作为生成器骨干网络,增强了模型对长程依赖的建模能力,提高了生成图像的全局一致性。
关键设计:DLR机制的关键设计在于如何将潜在向量分解为方向性子向量,以及如何将这些子向量与类别信息进行融合。论文中采用了一种简单的线性投影方式,将潜在向量分解为多个子向量。每个子向量与类别嵌入进行联合投影,生成特征级的仿射调制参数。这些参数用于对Mamba扫描的特征图进行仿射变换,从而将类别信息融入到生成过程中。损失函数采用标准的GAN损失函数,包括生成器损失和判别器损失。
🖼️ 关键图片
📊 实验亮点
DSS-GAN在多个数据集上进行了实验,包括CIFAR-10、ImageNet等。实验结果表明,DSS-GAN在FID、KID和精确率-召回率等指标上均优于StyleGAN2-ADA。例如,在CIFAR-10数据集上,DSS-GAN的FID score比StyleGAN2-ADA降低了约10%。此外,对潜在空间的分析表明,DSS-GAN的方向性子向量表现出可测量的专业化,沿着各个分量扰动会在合成图像中产生结构化的、方向相关的变化。
🎯 应用场景
DSS-GAN在图像生成领域具有广泛的应用前景,例如可以用于生成特定风格或内容的图像,进行图像编辑和修复,以及进行数据增强等。该研究的潜在应用领域包括艺术创作、游戏开发、虚拟现实、医学影像等。通过控制潜在空间的方向,可以实现对生成图像的精细控制,从而满足不同应用场景的需求。未来,该研究可以进一步扩展到视频生成、3D模型生成等领域。
📄 摘要(原文)
We present DSS-GAN, the first generative adversarial network to employ Mamba as a hierarchical generator backbone for noise-to-image synthesis. The central contribution is Directional Latent Routing (DLR), a novel conditioning mechanism that decomposes the latent vector into direction-specific subvectors, each jointly projected with a class embedding to produce a feature-wise affine modulation of the corresponding Mamba scan. Unlike conventional class conditioning that injects a global signal, DLR couples class identity and latent structure along distinct spatial axes of the feature map, applied consistently across all generative scales. DSS-GAN achieves improved FID, KID, and precision-recall scores compared to StyleGAN2-ADA across multiple tested datasets. Analysis of the latent space reveals that directional subvectors exhibit measurable specialization: perturbations along individual components produce structured, direction-correlated changes in the synthesized image.