Guiding Visual Autoregressive Models through Spectrum Weakening

📄 arXiv: 2511.22991v1 📥 PDF

作者: Chaoyang Wang, Tianmeng Yang, Jingdong Wang, Yunhai Tong

分类: cs.CV

发布日期: 2025-11-28


💡 一句话要点

提出基于频谱弱化的视觉自回归模型引导方法,无需重训练即可提升生成质量。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 视觉自回归模型 频谱弱化 无条件生成 条件生成 Classifier-free guidance

📋 核心要点

  1. 现有无条件生成引导方法依赖于扩散模型的特定假设,通用性受限。
  2. 提出频谱弱化框架,通过在频谱域控制信息减少,实现视觉自回归模型的引导。
  3. 实验表明,该方法在无条件生成质量和条件对齐方面均有提升,且无需重训练。

📝 摘要(中文)

本文提出了一种用于视觉自回归(AR)模型的频谱弱化框架,旨在提升生成质量和条件对齐。该方法无需重新训练、特定条件或任何架构修改,通过在频谱域构建可控的弱模型来实现。理论证明,可逆频谱变换保留信息,而选择性地保留频谱子集会引入可控的信息减少。基于此,本文沿内部表示的通道维度执行频谱选择,避免了扩散模型施加的结构约束。此外,还引入了两种频谱归一化策略,以确保弱化过程中的数值稳定性。在离散和连续AR模型上进行了大量实验,结果表明该方法能够在保持条件生成强大提示对齐的同时,实现高质量的无条件生成。

🔬 方法详解

问题定义:现有Classifier-free guidance (CFG)方法在视觉自回归模型上的应用受限于扩散模型的特定结构和假设,缺乏通用性。如何在不依赖特定模型结构和重新训练的情况下,提升视觉自回归模型的生成质量和条件对齐是一个挑战。

核心思路:论文的核心思路是在频谱域构建一个可控的弱模型,通过选择性地保留频谱信息来减少模型的信息量,从而实现引导。这种方法基于信息论的原理,即信息减少可以引导模型生成更符合期望的结果。通过控制频谱信息的保留程度,可以调节引导的强度。

技术框架:该方法主要包含以下几个阶段:1) 对视觉自回归模型的内部表示进行频谱变换,将其转换到频谱域。2) 在频谱域中,沿通道维度选择性地保留一部分频谱信息,实现频谱弱化。3) 对弱化后的频谱进行逆变换,将其转换回原始空间。4) 使用原始模型和弱化模型进行引导,生成最终结果。此外,为了保证数值稳定性,还引入了频谱归一化策略。

关键创新:该方法最重要的创新点在于提出了基于频谱弱化的引导框架,它不依赖于特定的模型结构,可以应用于各种视觉自回归模型。与传统的CFG方法相比,该方法避免了对模型进行重新训练,并且不需要额外的条件信息。此外,在频谱域进行操作也使得信息控制更加精细和可控。

关键设计:频谱选择策略是关键设计之一,论文提出了沿通道维度进行频谱选择的方法,避免了扩散模型带来的结构约束。此外,为了保证数值稳定性,论文还提出了两种频谱归一化策略。具体的参数设置和损失函数没有在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够在保持条件生成强大提示对齐的同时,实现高质量的无条件生成。具体的性能数据和对比基线在摘要中没有提及,属于未知信息。但强调了在离散和连续AR模型上均取得了良好的效果。

🎯 应用场景

该研究成果可应用于图像生成、视频生成、文本到图像生成等领域。通过频谱弱化引导,可以提升生成内容的多样性和质量,并更好地控制生成结果与条件提示的对齐程度。该方法无需重新训练,易于部署和应用,具有广泛的应用前景。

📄 摘要(原文)

Classifier-free guidance (CFG) has become a widely adopted and practical approach for enhancing generation quality and improving condition alignment. Recent studies have explored guidance mechanisms for unconditional generation, yet these approaches remain fundamentally tied to assumptions specific to diffusion models. In this work, we propose a spectrum-weakening framework for visual autoregressive (AR) models. This method works without the need for re-training, specific conditions, or any architectural modifications. It achieves this by constructing a controllable weak model in the spectral domain. We theoretically show that invertible spectral transformations preserve information, while selectively retaining only a subset of spectrum introduces controlled information reduction. Based on this insight, we perform spectrum selection along the channel dimension of internal representations, which avoids the structural constraints imposed by diffusion models. We further introduce two spectrum renormalization strategies that ensures numerical stability during the weakening process. Extensive experiments were conducted on both discrete and continuous AR models, with text or class conditioning. The results demonstrate that our method enables high-quality unconditional generation while maintaining strong prompt alignment for conditional generation.