Guidance Is Not a Hyperparameter: Learning Dynamic Control in Diffusion Language Models
作者: Fan Zhou, Tim Van de Cruys
分类: cs.CL
发布日期: 2026-05-08
备注: ReALM-GEN@ICLR2026
💡 一句话要点
提出基于强化学习的动态引导策略,解决扩散语言模型中引导尺度固定导致的控制力与质量权衡问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 扩散语言模型 无分类器引导 强化学习 序列决策 受控文本生成 近端策略优化
📋 核心要点
- 现有扩散语言模型中,CFG引导尺度通常设为固定超参数,无法适应不同生成阶段及任务需求,导致控制力与生成质量难以兼顾。
- 论文将引导尺度选择建模为序列决策问题,利用强化学习(PPO算法)根据扩散状态动态调整每一步的引导尺度,实现自适应控制。
- 在多个受控NLP任务中,动态引导策略显著优于固定尺度基线,在保持高质量文本生成的同时,大幅提升了对生成内容的控制精度。
📝 摘要(中文)
无分类器引导(CFG)是扩散生成模型中常用的控制机制,但其引导尺度通常在整个生成过程中被视为固定的超参数。这种静态设计导致了次优的控制力与质量权衡,因为最优引导程度在不同任务及扩散过程的不同阶段(尤其在NLP领域)存在显著差异。本文将CFG尺度选择重构为序列决策问题,并提出通过强化学习学习动态引导轨迹。具体而言,我们将引导尺度建模为在每个生成步骤中根据扩散状态选择的离散控制动作,并利用近端策略优化(PPO)在任务级奖励下优化策略。在三个受控NLP生成任务上的实验表明,自适应引导在控制力和生成质量之间实现了比固定尺度策略更好的平衡。对所学策略的进一步分析揭示了跨任务的独特且可解释的引导轨迹,强调了将引导视为动态控制过程而非静态设计选择的重要性。
🔬 方法详解
问题定义:论文旨在解决扩散语言模型中CFG引导尺度(Guidance Scale)静态化的问题。现有方法在整个去噪过程中使用单一尺度,忽略了扩散过程不同阶段对引导强度的动态需求,导致模型在生成质量与受控性之间无法达到最优平衡。
核心思路:将引导尺度的选择视为一个序列决策过程。通过引入强化学习框架,让模型在生成过程中根据当前的扩散状态(如时间步、当前文本状态)实时选择最优的引导尺度,从而实现“动态引导”。
技术框架:整体架构基于离散扩散语言模型。引入一个策略网络(Policy Network),在每个去噪步骤输入当前状态,输出引导尺度的离散动作概率分布。利用PPO算法,根据最终生成的文本在特定任务上的奖励(Reward)来更新策略网络参数。
关键创新:将原本属于超参数调优范畴的引导尺度转化为可学习的控制策略。这种方法不仅实现了自动化调优,还赋予了模型在生成过程中根据上下文动态调整控制强度的能力,这是传统静态方法无法实现的。
关键设计:将引导尺度离散化为一组候选值;定义任务相关的奖励函数(如属性分类准确率与困惑度Perplexity的加权组合);采用PPO算法进行策略优化,确保训练过程的稳定性,并针对扩散模型的生成特性设计了状态特征提取器。
🖼️ 关键图片
📊 实验亮点
实验在三个受控NLP任务上验证了该方法的有效性。结果显示,动态引导策略在保持生成文本流畅度(低困惑度)的同时,在属性控制准确率上显著超越了最优的固定尺度基线。分析表明,模型学会了在扩散过程的不同阶段(如初期关注全局结构,后期关注细节)采取差异化的引导策略,证明了动态控制的必要性。
🎯 应用场景
该研究适用于需要高度可控文本生成的场景,如受控创意写作、特定风格的文本生成、以及符合特定约束(如情感、主题、逻辑)的对话系统。其动态控制机制可推广至图像生成等其他扩散模型领域,为提升生成式AI的精确可控性提供通用范式。
📄 摘要(原文)
Classifier-Free Guidance (CFG) is a widely used mechanism for controlling diffusion-based generative models, yet its guidance scale is typically treated as a fixed hyperparameter throughout generation. This static design yields a suboptimal controllability and quality tradeoff, as the optimal degree of guidance varies across tasks and across different stages of the diffusion process, especially in NLP domain. We recast CFG scale selection as a sequential decision-making problem and propose to learn dynamic guidance trajectories via reinforcement learning. Specifically, we model the guidance scale as a discrete control action selected at each generation step based on the evolving diffusion state, and optimize a policy using Proximal Policy Optimization (PPO) under task-level rewards. Experiments on three controlled NLP generation tasks using discrete diffusion language models demonstrate that adaptive guidance consistently achieves a better balance between controllability and generation quality than fixed-scale strategies. Further analysis of the learned policies reveals distinct and interpretable guidance trajectories across tasks, underscoring the importance of treating guidance as a dynamic control process rather than a static design choice.