ParetoSlider: Diffusion Models Post-Training for Continuous Reward Control
作者: Shelly Golan, Michael Finkelson, Ariel Bereslavsky, Yotam Nitzan, Or Patashnik
分类: cs.LG, cs.CV
发布日期: 2026-04-22
备注: Project page: https://shelley-golan.github.io/ParetoSlider-webpage/
💡 一句话要点
ParetoSlider:通过扩散模型后训练实现连续奖励控制
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 扩散模型 强化学习 多目标优化 帕累托前沿 条件生成
📋 核心要点
- 现有生成模型对齐方法依赖单一标量奖励,无法有效处理多目标优化问题,尤其是在目标冲突时。
- ParetoSlider通过多目标强化学习训练单个扩散模型,逼近帕累托前沿,实现推理时对不同目标的灵活权衡。
- 实验表明,ParetoSlider在多个流匹配骨干网络上,性能匹配或超过了为固定折衷训练的基线,并提供细粒度控制。
📝 摘要(中文)
强化学习(RL)后训练已成为使生成模型与人类偏好对齐的标准方法,但大多数方法依赖于单一标量奖励。当多个标准很重要时,主流的“早期标量化”做法将奖励折叠成固定的加权和。这使得模型在训练时只能选择一个折衷点,而无法在推理时控制内在冲突的目标——例如图像编辑中的提示遵循度与源保真度。我们引入了ParetoSlider,这是一个多目标RL(MORL)框架,它训练单个扩散模型来逼近整个帕累托前沿。通过使用连续变化的偏好权重作为条件信号来训练模型,我们使用户能够在推理时导航最佳折衷方案,而无需重新训练或维护多个检查点。我们在三个最先进的流匹配骨干网络上评估了ParetoSlider:SD3.5、FluxKontext和LTX-2。我们提出的单偏好条件模型匹配或超过了为固定奖励折衷单独训练的基线的性能,同时独特地提供了对竞争性生成目标的细粒度控制。
🔬 方法详解
问题定义:现有方法在对齐生成模型时,通常使用单一标量奖励,这在多目标优化问题中存在局限性。例如,在图像编辑中,用户可能需要在提示遵循度和源图像保真度之间进行权衡。传统方法通过“早期标量化”将多个目标合并为一个,导致模型只能学习到固定的折衷方案,缺乏推理时的灵活性。这种方法无法满足用户对不同目标之间动态权衡的需求。
核心思路:ParetoSlider的核心思路是训练一个能够逼近整个帕累托前沿的扩散模型。帕累托前沿代表了在多个目标之间所有可能的最佳权衡方案。通过将连续变化的偏好权重作为条件信号输入模型,ParetoSlider能够学习到不同目标之间的关系,并在推理时根据用户的偏好动态地调整生成结果,从而实现对多个目标的细粒度控制。
技术框架:ParetoSlider采用多目标强化学习(MORL)框架。整体流程包括:1)定义多个奖励函数,分别对应不同的生成目标;2)使用扩散模型作为生成器,并将其训练成一个策略网络;3)使用MORL算法,以连续变化的偏好权重作为条件,训练模型逼近帕累托前沿;4)在推理时,用户可以根据自己的偏好选择不同的权重,从而获得不同的生成结果。该框架的关键在于将偏好权重作为条件信号,使得模型能够学习到不同目标之间的权衡关系。
关键创新:ParetoSlider最重要的创新点在于它能够训练单个模型来逼近整个帕累托前沿,从而实现对多个目标的连续控制。与传统方法相比,ParetoSlider无需重新训练或维护多个模型,即可根据用户的偏好动态地调整生成结果。这种方法不仅提高了效率,还提供了更大的灵活性和控制力。
关键设计:ParetoSlider的关键设计包括:1)使用连续变化的偏好权重作为条件信号,这使得模型能够学习到不同目标之间的连续关系;2)采用合适的MORL算法,例如基于标量化的方法或基于帕累托支配的方法,来训练模型逼近帕累托前沿;3)设计合适的奖励函数,以准确地反映不同的生成目标。具体的参数设置和网络结构需要根据具体的应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
ParetoSlider在SD3.5、FluxKontext和LTX-2等多个最先进的流匹配骨干网络上进行了评估。实验结果表明,ParetoSlider能够匹配或超过为固定奖励折衷单独训练的基线的性能,同时提供了对竞争性生成目标的细粒度控制。这证明了ParetoSlider在多目标优化问题中的有效性和优越性。
🎯 应用场景
ParetoSlider可应用于图像编辑、文本生成、音频合成等多个领域。例如,在图像编辑中,用户可以控制图像的风格、内容和细节,实现个性化的编辑效果。在文本生成中,用户可以控制文本的长度、风格和主题,生成符合特定需求的文本。该研究的实际价值在于提高了生成模型的可控性和灵活性,未来有望应用于更多需要多目标优化的场景。
📄 摘要(原文)
Reinforcement Learning (RL) post-training has become the standard for aligning generative models with human preferences, yet most methods rely on a single scalar reward. When multiple criteria matter, the prevailing practice of ``early scalarization'' collapses rewards into a fixed weighted sum. This commits the model to a single trade-off point at training time, providing no inference-time control over inherently conflicting goals -- such as prompt adherence versus source fidelity in image editing. We introduce ParetoSlider, a multi-objective RL (MORL) framework that trains a single diffusion model to approximate the entire Pareto front. By training the model with continuously varying preference weights as a conditioning signal, we enable users to navigate optimal trade-offs at inference time without retraining or maintaining multiple checkpoints. We evaluate ParetoSlider across three state-of-the-art flow-matching backbones: SD3.5, FluxKontext, and LTX-2. Our single preference-conditioned model matches or exceeds the performance of baselines trained separately for fixed reward trade-offs, while uniquely providing fine-grained control over competing generative goals.