Addressing Performance Saturation for LLM RL via Precise Entropy Curve Control
作者: Bolian Li, Yifan Wang, Yi Ding, Anamika Lochab, Ananth Grama, Ruqi Zhang
分类: cs.LG, cs.CL, stat.ML
发布日期: 2026-04-29
💡 一句话要点
Entrocraft:通过精确熵曲线控制解决LLM强化学习中的性能饱和问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 性能饱和 熵控制 拒绝采样 优势函数 探索策略
📋 核心要点
- 现有LLM强化学习方法受困于性能饱和,根本原因是训练过程中熵崩溃,导致探索不足。
- Entrocraft通过拒绝采样偏置优势分布,实现用户自定义的熵曲线,无需正则化且与优势估计器无关。
- 实验表明,Entrocraft能有效解决性能饱和,提升泛化性、多样性,并显著提高pass@K指标。
📝 摘要(中文)
强化学习(RL)已经解锁了大型语言模型(LLM)中复杂的推理能力。然而,大多数RL算法都存在性能饱和问题,随着RL训练规模的扩大,性能提升受阻。这个问题可以归结为熵的崩溃,熵是RL中探索的关键指标。现有的方法试图通过正则化或裁剪来防止熵崩溃,但它们产生的熵曲线通常表现出长期不稳定性,这阻碍了性能的提升。在本文中,我们提出了一种简单的拒绝采样方法Entrocraft,它通过偏置优势分布来实现任何用户自定义的熵计划。Entrocraft不需要目标正则化,并且与优势估计器无关。从理论上讲,我们将每步熵的变化与最小假设下的优势分布联系起来,这解释了现有RL和熵保持方法的行为。Entrocraft还能够系统地研究熵计划,我们发现线性退火(从高值开始并衰减到略低的target值)表现最佳。在实验上,Entrocraft解决了性能饱和问题,显著提高了泛化能力、输出多样性和长期训练效果。它使一个4B模型能够优于8B的baseline模型,在达到性能瓶颈之前,持续改进的时间延长了4倍,并且pass@K指标提高了50%。
🔬 方法详解
问题定义:现有LLM强化学习算法在训练过程中,随着训练的进行,探索能力逐渐下降,导致熵值崩溃,最终陷入局部最优,无法进一步提升性能,出现性能饱和现象。现有的熵正则化或裁剪方法,虽然试图维持熵值,但往往导致熵曲线不稳定,无法有效解决性能饱和问题。
核心思路:Entrocraft的核心思路是通过精确控制优势函数的分布,从而实现对熵值的精确控制。通过拒绝采样,对优势函数进行偏置,使得最终的策略能够满足预设的熵曲线。这种方法无需对目标函数进行正则化,并且可以灵活地自定义熵的变化过程。
技术框架:Entrocraft主要包含以下几个步骤:1. 根据用户自定义的熵计划,确定目标熵值。2. 基于当前的策略和环境,计算优势函数。3. 使用拒绝采样方法,根据目标熵值对优势函数进行偏置,生成新的优势函数分布。4. 基于新的优势函数分布,更新策略。整个框架与具体的优势函数估计器无关,可以灵活地与其他RL算法结合使用。
关键创新:Entrocraft的关键创新在于其能够精确控制熵曲线,从而避免了传统方法中熵值崩溃或熵曲线不稳定的问题。通过拒绝采样偏置优势函数,实现了对策略探索的精确控制,从而能够更有效地探索环境,避免陷入局部最优。此外,Entrocraft不需要额外的正则化项,简化了算法的实现和调试。
关键设计:Entrocraft的关键设计在于拒绝采样的具体实现。论文中并没有给出拒绝采样的具体公式,但其核心思想是根据目标熵值,对优势函数进行加权,使得最终的策略能够满足目标熵值。线性退火被发现是最佳的熵衰减策略,即从一个较高的初始熵值线性衰减到一个较低的目标熵值。
🖼️ 关键图片
📊 实验亮点
Entrocraft在实验中表现出色,能够显著提高LLM的性能。例如,使用Entrocraft训练的4B模型能够超越8B的baseline模型。此外,Entrocraft能够延长训练时间,在达到性能瓶颈之前,持续改进的时间延长了4倍。在代码生成任务中,Entrocraft将pass@K指标提高了50%。这些结果表明,Entrocraft能够有效解决性能饱和问题,提升LLM的性能。
🎯 应用场景
Entrocraft具有广泛的应用前景,可以应用于各种需要强化学习的LLM任务中,例如代码生成、文本摘要、对话生成等。通过解决性能饱和问题,Entrocraft能够提升LLM在这些任务中的性能,提高生成内容的质量和多样性。此外,Entrocraft还可以用于探索新的LLM训练方法,例如通过自定义熵曲线来引导LLM的学习过程。
📄 摘要(原文)
Reinforcement learning (RL) has unlocked complex reasoning abilities in large language models (LLMs). However, most RL algorithms suffer from performance saturation, preventing further gains as RL training scales. This problem can be characterized by the collapse of entropy, a key diagnostic for exploration in RL. Existing attempts have tried to prevent entropy collapse through regularization or clipping, but their resulting entropy curves often exhibit instability in the long term, which hinders performance gains. In this paper, we introduce Entrocraft, a simple rejection-sampling approach that realizes any user-customized entropy schedule by biasing the advantage distributions. Entrocraft requires no objective regularization and is advantage-estimator-agnostic. Theoretically, we relate per-step entropy change to the advantage distribution under minimal assumptions, which explains the behavior of existing RL and entropy-preserving methods. Entrocraft also enables a systematic study of entropy schedules, where we find that linear annealing, which starts high and decays to a slightly lower target, performs best. Empirically, Entrocraft addresses performance saturation, significantly improving generalization, output diversity, and long-term training. It enables a 4B model to outperform an 8B baseline, sustains improvement for up to 4x longer before plateauing, and raises pass@K by 50% over the baseline.