Reward Weighted Classifier-Free Guidance as Policy Improvement in Autoregressive Models
作者: Alexander Peysakhovich, William Berman
分类: cs.LG, cs.AI
发布日期: 2026-04-16
💡 一句话要点
提出奖励加权无分类器引导方法,提升自回归模型策略
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 自回归模型 奖励函数 无分类器引导 策略改进 分子生成
📋 核心要点
- 现有方法在奖励函数改变时需要重新训练自回归模型,成本高昂且效率低下。
- 论文提出奖励加权无分类器引导(RCFG)方法,通过近似Q函数来调整采样分布,实现策略改进。
- 实验表明,RCFG在分子生成任务中能有效优化新奖励函数,并加速强化学习收敛。
📝 摘要(中文)
本文研究了自回归模型,该模型生成输出x(例如,问题的答案、分子),每个输出x都可以用属性向量y(例如,有用性与无害性,或生物利用度与亲脂性)来概括。任意奖励函数r(y)编码了这些属性之间的权衡。通常,为了提高奖励,需要通过强化学习在训练时调整模型的采样分布。然而,如果奖励函数发生变化,重新对齐需要重新训练。本文表明,奖励加权无分类器引导(RCFG)可以在这种情况下充当策略改进算子,近似于通过Q函数倾斜采样分布。我们将RCFG应用于分子生成,证明了它可以在测试时优化新的奖励函数。最后,我们表明,使用RCFG作为教师,并将其提炼到基础策略中作为热启动,可以显著加快标准强化学习的收敛速度。
🔬 方法详解
问题定义:论文旨在解决自回归模型在面对变化的奖励函数时,需要重新训练的问题。现有方法,如直接使用强化学习,在奖励函数改变后需要耗费大量时间和计算资源进行重新训练,缺乏灵活性和效率。
核心思路:论文的核心思路是将奖励加权无分类器引导(RCFG)作为一种策略改进算子。RCFG通过调整模型的采样分布,使其倾向于产生具有更高奖励的输出,从而在不需要重新训练整个模型的情况下,适应新的奖励函数。这种方法近似于通过Q函数来倾斜采样分布,从而实现策略的改进。
技术框架:整体框架包括一个预训练的自回归模型和一个奖励函数。RCFG模块利用奖励函数来调整自回归模型的采样过程。具体流程如下:1. 使用自回归模型生成候选输出。2. 使用奖励函数评估每个候选输出的奖励值。3. 使用RCFG根据奖励值调整采样分布,使得模型更有可能生成高奖励的输出。4. 可选地,使用RCFG作为教师,将知识蒸馏到基础策略中,以加速后续强化学习的收敛。
关键创新:最重要的创新点在于将无分类器引导(Classifier-Free Guidance)的思想扩展到奖励加权的场景,并将其应用于策略改进。与传统的强化学习方法相比,RCFG不需要重新训练整个模型,而是通过调整采样分布来适应新的奖励函数,从而大大提高了效率。此外,将RCFG作为教师进行知识蒸馏,可以进一步加速强化学习的收敛。
关键设计:RCFG的关键设计在于如何根据奖励值来调整采样分布。具体来说,RCFG使用奖励值作为权重,来调整自回归模型的输出概率。例如,可以使用softmax函数将奖励值转换为概率分布,然后将该概率分布与自回归模型的输出概率进行加权平均。此外,论文还探讨了不同的奖励函数形式和加权策略对RCFG性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RCFG在分子生成任务中能够有效地优化新的奖励函数,并且在测试时表现出良好的泛化能力。与传统的强化学习方法相比,RCFG不需要重新训练整个模型,从而大大提高了效率。此外,使用RCFG作为教师进行知识蒸馏,可以显著加快强化学习的收敛速度,例如,在某些实验中,收敛速度提高了2倍以上。
🎯 应用场景
该研究成果可广泛应用于序列生成任务中,例如文本生成、图像生成和分子生成等。在实际应用中,可以根据不同的需求设计不同的奖励函数,从而引导模型生成符合特定属性的输出。例如,在药物发现领域,可以设计奖励函数来优化分子的生物活性、选择性和安全性等属性,从而加速新药的研发过程。此外,该方法还可以应用于对话系统,通过设计奖励函数来提高对话的流畅性、信息性和趣味性。
📄 摘要(原文)
Consider an auto-regressive model that produces outputs x (e.g., answers to questions, molecules) each of which can be summarized by an attribute vector y (e.g., helpfulness vs. harmlessness, or bio-availability vs. lipophilicity). An arbitrary reward function r(y) encodes tradeoffs between these properties. Typically, tilting the model's sampling distribution to increase this reward is done at training time via reinforcement learning. However, if the reward function changes, re-alignment requires re-training. In this paper, we show that a reward weighted classifier-free guidance (RCFG) can act as a policy improvement operator in this setting, approximating tilting the sampling distribution by the Q function. We apply RCFG to molecular generation, demonstrating that it can optimize novel reward functions at test time. Finally, we show that using RCFG as a teacher and distilling into the base policy to serve as a warm start significantly speeds up convergence for standard RL.