VAGS: Velocity Adaptive Guidance Scale for Image Editing and Generation
作者: Yan Luo, Ahmadou Aidara, Jingyi Lu, Jeremy Moebel, Kai Han, Mengyu Wang
分类: cs.CV, cs.AI
发布日期: 2026-05-15
🔗 代码/项目: GITHUB
💡 一句话要点
提出VAGS:一种速度自适应引导缩放方法,用于提升图像编辑和生成质量。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 图像编辑 图像生成 流模型 分类器无关引导 自适应引导 速度场 免训练 扩散模型
📋 核心要点
- 现有分类器无关引导(CFG)方法在图像编辑和生成中采用固定缩放因子,忽略了采样过程中语义信号强度的变化。
- VAGS通过结合时间信号级别和速度场一致性,动态调整引导缩放因子,从而更好地控制图像的编辑和生成过程。
- 实验结果表明,VAGS在图像编辑和生成任务中,相比固定CFG和其他免训练引导方法,显著提升了图像的结构保真度和生成质量。
📝 摘要(中文)
本文提出了一种名为“速度自适应引导缩放”(VAGS)的免训练方法,用于改进基于流的采样器中的分类器无关引导(CFG)。标准CFG在整个ODE轨迹中使用固定的缩放因子,这与实际需求不符:早期步骤噪声大,语义信号弱;后期步骤需要更强的方向性。VAGS通过一个有界的因子来调整名义缩放因子,该因子结合了时间信号级别项以及任务相关速度场之间的余弦相似度。对于免反演编辑,VAGS衡量源引导速度和目标引导速度之间的一致性,从而使每一步的编辑强度反映了保留和转换之间的局部兼容性。对于生成任务,VAGS-Gen使用无条件速度和条件速度之间的一致性作为类似信号。该方法无需微调、辅助网络或额外的正向传递,并且固定CFG是其一个特例。在PIE-Bench和DIV2K(编辑任务)以及COCO17、CUB-200和Flickr30K(生成任务)上,VAGS始终优于固定CFG和最新的免训练引导方法,提高了结构保真度和生成质量。
🔬 方法详解
问题定义:现有基于流的生成模型,在使用分类器无关引导(CFG)进行图像编辑和生成时,通常采用固定的引导缩放因子。这种做法忽略了生成过程中不同阶段的特点:早期阶段噪声占主导,语义信息较弱,而后期阶段需要更强的方向性引导。因此,固定的缩放因子无法有效地控制生成过程,导致图像质量下降或编辑效果不佳。
核心思路:VAGS的核心思想是根据生成过程中的速度场信息,自适应地调整引导缩放因子。具体来说,VAGS利用时间信号级别来反映生成阶段,并计算任务相关的速度场之间的余弦相似度,以衡量引导方向与模型当前动态的一致性。通过将这两个因素结合起来,VAGS可以动态地调整引导强度,从而更好地控制图像的编辑和生成过程。
技术框架:VAGS方法可以分为两个主要变体:VAGS-Edit和VAGS-Gen。VAGS-Edit用于免反演图像编辑,它衡量源图像和目标图像引导速度之间的一致性,从而调整编辑强度。VAGS-Gen用于图像生成,它使用无条件速度和条件速度之间的一致性作为信号来调整引导强度。两种变体都无需额外的网络或训练,可以直接替代现有的固定CFG方法。
关键创新:VAGS的关键创新在于其自适应调整引导缩放因子的机制。与固定CFG相比,VAGS能够根据生成过程中的速度场信息,动态地调整引导强度,从而更好地控制图像的编辑和生成过程。此外,VAGS是一种免训练方法,无需额外的训练数据或计算资源。
关键设计:VAGS的关键设计在于其缩放因子的计算方式。缩放因子由两部分组成:时间信号级别项和速度场一致性项。时间信号级别项用于反映生成阶段,可以使用预定义的函数或学习得到。速度场一致性项通过计算任务相关的速度场之间的余弦相似度来衡量引导方向与模型当前动态的一致性。最终的缩放因子是将这两个部分结合起来,并限制在一个有界的范围内。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VAGS在图像编辑和生成任务中均取得了显著的性能提升。在PIE-Bench和DIV2K数据集上,VAGS-Edit在图像编辑任务中优于固定CFG和其他免训练引导方法。在COCO17、CUB-200和Flickr30K数据集上,VAGS-Gen在图像生成任务中也取得了更好的效果,提高了图像的结构保真度和生成质量。
🎯 应用场景
VAGS具有广泛的应用前景,可以应用于图像编辑、图像生成、风格迁移等领域。例如,在图像编辑中,VAGS可以用于实现更精细的局部编辑,提高编辑效果。在图像生成中,VAGS可以用于生成更高质量、更逼真的图像。此外,VAGS还可以应用于艺术创作、设计等领域,为用户提供更强大的创作工具。
📄 摘要(原文)
Classifier-free guidance (CFG) is the primary control over how strongly text semantics move a flow-based sampler, yet standard practice holds its scale fixed across the entire ODE trajectory. This is a fundamental mismatch: early steps are noise-dominated and carry weak semantic signal, while late steps commit image structure and demand stronger directional commitment; more critically, the value of any guidance strength depends on whether the guided velocity is consistent with the model's current dynamics or working against them. We propose \textit{Velocity-Adaptive Guidance Scale} (VAGS), a training-free replacement that multiplies the nominal scale by a bounded factor combining a temporal signal-level term with the cosine similarity between task-relevant velocity fields. For inversion-free editing, VAGS measures the alignment between source- and target-guided velocities, so edit strength at each step reflects local compatibility between preservation and transformation. For generation, VAGS-Gen uses the alignment between unconditional and conditional velocities as the analogous signal. Neither variant requires fine-tuning, auxiliary networks, or extra forward passes, and fixed CFG is recovered as a special case. On PIE-Bench and DIV2K for editing, and COCO17, CUB-200, and Flickr30K for generation, VAGS consistently improves structural fidelity and generation quality over fixed CFG and recent training-free guidance variants. The code is publicly available at https://github.com/Harvard-AI-and-Robotics-Lab/Velocity_Adaptive_Guidance_Scale.