Entropy-Preserving Reinforcement Learning
作者: Aleksei Petrenko, Ben Lipkin, Kevin Chen, Erik Wijmans, Marco Cusumano-Towner, Raja Giryes, Philipp Krähenbühl
分类: cs.LG, cs.AI
发布日期: 2026-03-12
备注: Published at ICLR 2026
期刊: Proceedings of the International Conference on Learning Representations (ICLR), 2026
💡 一句话要点
提出REPO和ADAPO算法,解决策略梯度算法训练中探索多样性降低的问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 策略梯度 熵正则化 探索-利用平衡 强化学习 语言模型推理
📋 核心要点
- 策略梯度算法在训练中会降低探索轨迹的熵,限制策略的多样性,阻碍创造性解决方案的发现。
- 论文提出REPO和ADAPO算法,通过修改优势函数和自适应裁剪来显式控制熵,保持探索的多样性。
- 实验表明,使用该方法训练的模型在训练过程中保持多样性,最终策略性能更高,且在新环境中保持可训练性。
📝 摘要(中文)
策略梯度算法推动了语言模型推理的最新进展。一个吸引人的特性是它们能够从自身轨迹的探索中学习,这个过程对于培养多样化和创造性的解决方案至关重要。然而,本文表明,许多策略梯度算法在训练过程中会自然地降低熵,从而降低探索轨迹的多样性,使得策略在探索能力上越来越受限。本文认为,在整个训练过程中应该积极地监控和控制熵。我们正式分析了主流策略梯度目标对熵动态的影响,识别了显著影响熵行为的经验因素(如数值精度),并提出了显式的熵控制机制,包括REPO(一种通过修改优势函数来调节熵的算法族)和ADAPO(一种自适应非对称裁剪方法)。使用我们的熵保持方法训练的模型在整个训练过程中保持多样性,从而产生性能更高,并能在新环境中保持可训练性的最终策略。
🔬 方法详解
问题定义:策略梯度算法在语言模型推理等领域取得了显著进展,但其在训练过程中存在一个固有问题:随着训练的进行,策略的熵会逐渐降低,导致探索的多样性减少。这种现象限制了算法发现更优解的能力,尤其是在需要创造性或探索性策略的场景下。现有方法往往忽略了对熵的显式控制,导致策略容易陷入局部最优。
核心思路:论文的核心思路是主动监控和控制策略的熵,以维持探索的多样性。通过分析策略梯度目标对熵动态的影响,论文发现可以通过修改优势函数和采用自适应裁剪等方法来调节熵。核心在于平衡利用(exploitation)和探索(exploration),避免过早收敛到次优策略。
技术框架:论文提出了两种主要的熵控制机制:REPO(REgularized POlicy Optimization)和ADAPO(ADaptive Asymmetric POlicy Optimization)。REPO通过修改优势函数,引入熵正则化项,鼓励策略保持较高的熵。ADAPO则采用一种自适应的非对称裁剪方法,根据策略的熵动态调整裁剪范围,避免策略过于激进地更新。
关键创新:论文的关键创新在于提出了显式的熵控制机制,并将其融入到策略梯度算法中。与传统的隐式熵正则化方法不同,REPO和ADAPO能够更精确地控制熵的变化,从而更好地平衡利用和探索。此外,论文还深入分析了影响熵行为的经验因素,如数值精度,为实际应用提供了指导。
关键设计:REPO的关键设计在于修改优势函数,引入熵正则化项。具体而言,优势函数被修改为 A(s, a) - λH(π(·|s)),其中A(s, a)是原始优势函数,H(π(·|s))是策略的熵,λ是正则化系数。ADAPO的关键设计在于自适应地调整裁剪范围。裁剪范围根据策略的熵动态变化,当熵较低时,裁剪范围会扩大,鼓励探索;当熵较高时,裁剪范围会缩小,避免策略过于不稳定。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了REPO和ADAPO算法的有效性。实验结果表明,与传统的策略梯度算法相比,使用REPO和ADAPO训练的模型在多个任务上取得了显著的性能提升。例如,在语言模型推理任务中,使用REPO训练的模型在保持较高准确率的同时,能够生成更多样化的推理路径。此外,实验还表明,使用该方法训练的模型在新环境中具有更好的可训练性。
🎯 应用场景
该研究成果可应用于各种需要策略探索和创造性解决问题的领域,例如语言模型推理、机器人导航、游戏AI等。通过保持策略的多样性,可以提高模型在复杂环境中的适应性和鲁棒性,并有可能发现更优的解决方案。此外,该方法还有助于解决强化学习中的探索-利用平衡问题,提高训练效率。
📄 摘要(原文)
Policy gradient algorithms have driven many recent advancements in language model reasoning. An appealing property is their ability to learn from exploration on their own trajectories, a process crucial for fostering diverse and creative solutions. As we show in this paper, many policy gradient algorithms naturally reduce the entropy -- and thus the diversity of explored trajectories -- as part of training, yielding a policy increasingly limited in its ability to explore. In this paper, we argue that entropy should be actively monitored and controlled throughout training. We formally analyze the contributions of leading policy gradient objectives on entropy dynamics, identify empirical factors (such as numerical precision) that significantly impact entropy behavior, and propose explicit mechanisms for entropy control. These include REPO, a family of algorithms that modify the advantage function to regulate entropy, and ADAPO, an adaptive asymmetric clipping approach. Models trained with our entropy-preserving methods maintain diversity throughout training, yielding final policies that are more performant and retain their trainability for sequential learning in new environments.