HERO: Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning
作者: Ayano Hiranaka, Shang-Fu Chen, Chieh-Hsin Lai, Dongjun Kim, Naoki Murata, Takashi Shibuya, Wei-Hsiang Liao, Shao-Hua Sun, Yuki Mitsufuji
分类: cs.LG, cs.AI, cs.CV, cs.HC
发布日期: 2024-10-07 (更新: 2025-03-13)
备注: Published in International Conference on Learning Representations (ICLR) 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出HERO框架以高效利用人类反馈进行在线扩散模型微调
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人类反馈 强化学习 在线学习 图像生成 微调 稳定扩散 反馈机制
📋 核心要点
- 现有方法依赖于预定义的奖励函数或预训练模型,限制了在高成本场景下的应用。
- HERO框架通过在线收集人类反馈,结合反馈对齐表示学习和反馈引导图像生成,提升微调效率。
- 实验结果显示,HERO在处理推理、计数和个性化等任务时,仅需0.5K在线反馈即可有效完成,效率显著提升。
📝 摘要(中文)
可控生成通过稳定扩散(SD)微调旨在提高生成的真实感、安全性和与人类指导的一致性。现有的基于人类反馈的强化学习方法通常依赖于预定义的启发式奖励函数或基于大规模数据集构建的预训练奖励模型,这限制了它们在数据收集成本高或困难场景下的适用性。为有效利用人类反馈,本文开发了HERO框架,利用在线收集的人类反馈进行模型学习。HERO具有两个关键机制:反馈对齐表示学习和反馈引导图像生成,能够加速收敛并提升生成质量。实验表明,HERO在身体部位异常修正任务中比现有最佳方法效率提升4倍。
🔬 方法详解
问题定义:本文旨在解决现有基于人类反馈的强化学习方法在数据收集困难和成本高的场景下的适用性问题。现有方法通常依赖于固定的奖励函数或预训练模型,导致灵活性不足。
核心思路:HERO框架的核心思路是通过在线收集人类反馈,实时调整模型学习过程,从而提高微调的效率和效果。通过这种方式,模型能够更好地对齐人类的意图,快速适应不同任务。
技术框架:HERO的整体架构包括两个主要模块:反馈对齐表示学习和反馈引导图像生成。前者通过在线学习捕捉人类反馈,后者则利用改进的初始化样本生成图像,促进更快的收敛。
关键创新:HERO的最大创新在于其在线反馈机制,能够实时调整模型学习过程,与传统方法相比,显著提高了反馈利用效率。
关键设计:在设计上,HERO采用了特定的损失函数以确保反馈信号的有效性,并优化了网络结构以支持快速生成和反馈处理。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HERO在身体部位异常修正任务中比现有最佳方法效率提升4倍。此外,HERO在处理推理、计数和个性化等任务时,仅需0.5K在线反馈即可有效完成,展现出其在多任务处理中的强大能力。
🎯 应用场景
该研究的潜在应用领域包括图像生成、个性化内容创作以及安全内容过滤等。HERO框架能够在多种场景中快速适应用户需求,提升生成内容的质量和安全性,具有广泛的实际价值和未来影响。
📄 摘要(原文)
Controllable generation through Stable Diffusion (SD) fine-tuning aims to improve fidelity, safety, and alignment with human guidance. Existing reinforcement learning from human feedback methods usually rely on predefined heuristic reward functions or pretrained reward models built on large-scale datasets, limiting their applicability to scenarios where collecting such data is costly or difficult. To effectively and efficiently utilize human feedback, we develop a framework, HERO, which leverages online human feedback collected on the fly during model learning. Specifically, HERO features two key mechanisms: (1) Feedback-Aligned Representation Learning, an online training method that captures human feedback and provides informative learning signals for fine-tuning, and (2) Feedback-Guided Image Generation, which involves generating images from SD's refined initialization samples, enabling faster convergence towards the evaluator's intent. We demonstrate that HERO is 4x more efficient in online feedback for body part anomaly correction compared to the best existing method. Additionally, experiments show that HERO can effectively handle tasks like reasoning, counting, personalization, and reducing NSFW content with only 0.5K online feedback. The code and project page are available at https://hero-dm.github.io/.