Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play

作者: Ziyu Ye, Rishabh Agarwal, Tianqi Liu, Rishabh Joshi, Sarmishta Velury, Quoc V. Le, Qijun Tan, Yuan Liu

分类: cs.CL, cs.AI, physics.data-an, stat.ML

发布日期: 2024-10-31 (更新: 2025-04-09)

备注: spotlight @ neurips language gamification workshop. updated the problem description and added new online RL experiments in this version

💡 一句话要点

提出eva：通过非对称自博弈演化对齐，实现LLM后训练的可扩展性，无需额外人工提示。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 后训练 提示工程 自博弈 自适应学习 模型对齐

📋 核心要点

现有LLM后训练的强化学习方法依赖固定提示分布，限制了模型性能和可扩展性，缺乏对提示的动态优化。
eva通过引入非对称自博弈机制，让模型自适应地生成和优化训练提示，从而实现更有效的后训练。
实验表明，eva在多个基准测试中显著提升了模型性能，甚至超越了更大规模的模型，验证了其有效性。

📝 摘要（中文）

当前大型语言模型（LLM）后训练的强化学习（RL）框架通常假设一个固定的提示分布，这是次优的，并限制了可扩展性。先前的工作探索了提示演化，但通常仅限于监督微调阶段，并且提示的采样和演化是均匀的，没有信号指导。这项实证研究提出了一种范式转变：通过非对称自博弈演化对齐（eva），将后训练视为一个无限博弈，其中包含基于遗憾的信号，适用于两个参与者：（i）创建者，策略性地采样和创建新的信息性提示；（ii）解决者，学习产生首选的响应。eva是第一个允许语言模型在离线和在线RL后训练中自适应地创建训练提示的方法。该设计简单易用但非常有效：eva在具有挑战性的基准测试上设置了新的SOTA，没有任何额外的人工提示，例如，它将gemma-2-9b-it在Arena-Hard上的胜率从DPO的51.6%提高到60.1%，从RLOO的52.6%提高到62.4%，超过了claude-3-opus，并赶上了gemini-1.5-pro，后两者都比前者大几个数量级。大量的实验表明，eva可以创建有效的RL课程，并且在消融实验中表现出鲁棒性。我们认为自适应演化提示是设计下一代RL后训练方案的关键。

🔬 方法详解

问题定义：现有基于强化学习的LLM后训练方法受限于静态的人工提示，无法充分挖掘模型的潜力。人工设计的提示分布往往是次优的，并且难以适应模型在训练过程中不断变化的需求。这种静态提示分布成为模型性能提升的瓶颈，限制了模型的可扩展性。

核心思路：eva的核心思想是将后训练过程视为一个双人博弈，其中一个玩家（创建者）负责生成高质量的训练提示，另一个玩家（解决者）负责根据这些提示生成高质量的回复。通过这种对抗性的训练方式，模型可以自适应地学习如何生成更有效的提示，并更好地利用这些提示进行学习。

技术框架：eva的整体框架包含两个主要模块：提示创建者和响应解决者。提示创建者使用基于遗憾的策略来选择和生成新的提示，目标是最大化解决者的学习效果。响应解决者则使用强化学习算法（如DPO或RLOO）来学习根据给定的提示生成高质量的回复。这两个模块通过非对称的自博弈方式进行交互，不断提升彼此的能力。

关键创新：eva最重要的创新在于引入了自适应的提示演化机制，使得模型可以在训练过程中动态地调整提示分布，从而更好地适应模型的学习需求。与传统的静态提示方法相比，eva能够更有效地利用训练数据，并取得更好的性能。此外，eva还采用了基于遗憾的提示选择策略，能够更有效地探索新的提示空间。

关键设计：eva的关键设计包括：1) 基于遗憾的提示选择策略，用于指导提示创建者生成更有价值的提示；2) 非对称的自博弈训练机制，使得提示创建者和响应解决者能够相互促进，共同提升；3) 与现有强化学习算法（如DPO和RLOO）的兼容性，使得eva可以方便地应用于各种LLM后训练场景。

🖼️ 关键图片

📊 实验亮点

eva在Arena-Hard基准测试中取得了显著的性能提升。例如，使用DPO算法时，gemma-2-9b-it的胜率从51.6%提高到60.1%；使用RLOO算法时，胜率从52.6%提高到62.4%。这一性能提升超过了claude-3-opus，并赶上了gemini-1.5-pro，而gemma-2-9b-it的规模远小于后两者，表明eva具有很高的效率。

🎯 应用场景

eva具有广泛的应用前景，可用于提升各种LLM的性能，尤其是在资源受限的情况下。它可以应用于对话系统、文本生成、代码生成等领域，帮助模型更好地理解用户意图，生成更符合要求的输出。此外，eva还可以用于探索新的提示工程方法，为LLM的训练和应用提供新的思路。

📄 摘要（原文）

Current reinforcement learning (RL) frameworks for large language models (LLM) post-training typically assume a fixed prompt distribution, which is sub-optimal and bottlenecks scalability. Prior works have explored prompt evolving, but are often limited to the supervised fine-tuning stage, and prompts are sampled and evolved uniformly without signals. This empirical work presents a paradigm shift: Evolving Alignment via Asymmetric Self-Play (eva), that casts post-training as an infinite game with regret-based signals for 2 players: (i) a creator, who strategically samples and creates new informative prompts and (ii) a solver, who learns to produce preferred responses. eva is the first method that allows language models to adaptively create training prompts in both offline and online RL post-training. The design is simple, easy-to-use yet remarkably effective: eva sets a new SOTA on challenging benchmarks, without any extra human prompts, e.g. it boosts the win-rate of gemma-2-9b-it on Arena-Hard by 51.6% -> 60.1% for DPO and 52.6% -> 62.4% for RLOO, surpassing claude-3-opus and catching up to gemini-1.5-pro, both of which are orders of magnitude larger. Extensive experiments show eva can create effective RL curricula and is robust across ablations. We believe adaptively evolving prompts are key to designing the next-generation RL post-training scheme.

Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理