Targeted Exploration via Unified Entropy Control for Reinforcement Learning
作者: Chen Wang, Lai Wei, Yanzhi Zhang, Chenyang Shao, Zedong Dan, Weiran Huang, Ge Lan, Yue Wang
分类: cs.AI
发布日期: 2026-04-16 (更新: 2026-04-17)
备注: Accepted for publication in Findings of the 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026)
🔗 代码/项目: GITHUB
💡 一句话要点
提出UEC-RL,通过统一熵控制解决强化学习中探索不足和策略坍塌问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 熵控制 探索策略 策略优化 大型语言模型
📋 核心要点
- 现有强化学习方法,如GRPO,在应用于大型模型推理时,常出现熵坍塌问题,导致策略过早收敛,探索不足。
- UEC-RL通过统一熵控制,针对性地在困难提示上增加探索,并使用稳定器防止熵无控制增长,维持训练稳定。
- 实验表明,UEC-RL在LLM和VLM推理任务上均优于现有RL基线,并在Geometry3K数据集上相对GRPO提升了37.9%。
📝 摘要(中文)
近年来,强化学习(RL)的进步提升了大型语言模型(LLM)和视觉语言模型(VLM)的推理能力。然而,广泛使用的Group Relative Policy Optimization (GRPO)始终面临熵坍塌问题,导致策略过早收敛并丧失多样性。现有的探索方法在探索过程中引入了额外的偏差或方差,难以维持优化稳定性。我们提出了用于强化学习的统一熵控制(UEC-RL)框架,该框架为探索和稳定提供了有针对性的机制。UEC-RL在困难的提示上激活更多的探索,以搜索潜在且有价值的推理轨迹。同时,一个稳定器防止熵不受控制地增长,从而在模型巩固可靠行为时保持训练稳定。这些组件共同在需要时扩展搜索空间,同时在整个训练过程中保持稳健的优化。在LLM和VLM推理任务上的实验表明,相对于RL基线,Pass@1和Pass@$k$均获得了持续的收益。在Geometry3K上,UEC-RL相对于GRPO实现了37.9%的相对改进,表明它在不影响收敛的情况下维持了有效的探索,并强调了UEC-RL作为扩展大型模型中基于RL的推理的关键。
🔬 方法详解
问题定义:论文旨在解决强化学习应用于大型语言模型和视觉语言模型推理任务时,由于熵坍塌导致的探索不足和策略过早收敛问题。现有方法在探索时引入了额外的偏差或方差,影响了优化稳定性。
核心思路:UEC-RL的核心思路是通过统一的熵控制机制,实现有针对性的探索和稳定。具体来说,对于困难的提示,增加探索以寻找潜在的优质推理轨迹;同时,使用稳定器限制熵的无控制增长,保证训练过程的稳定性。
技术框架:UEC-RL框架包含两个主要模块:探索模块和稳定模块。探索模块负责在困难的提示上激活更多的探索,鼓励模型探索未知的状态空间。稳定模块则负责监控策略的熵,并防止其过度增长,从而维持训练的稳定性。这两个模块协同工作,共同提升强化学习的性能。
关键创新:UEC-RL的关键创新在于其统一的熵控制机制,它能够根据任务的难度动态地调整探索的程度,并在探索的同时保证训练的稳定性。与现有方法相比,UEC-RL避免了引入额外的偏差或方差,从而更好地维持了优化稳定性。
关键设计:UEC-RL的具体实现细节包括:如何定义“困难的提示”,如何量化策略的熵,以及如何设计稳定器的具体形式。这些设计细节对于UEC-RL的性能至关重要,但论文中可能没有详细描述所有细节,具体实现可能需要参考开源代码。
🖼️ 关键图片
📊 实验亮点
UEC-RL在LLM和VLM推理任务上取得了显著的性能提升。在Geometry3K数据集上,UEC-RL相对于GRPO实现了37.9%的相对改进,表明其在不影响收敛的情况下维持了有效的探索。实验结果表明,UEC-RL能够有效地解决强化学习中的探索不足和策略坍塌问题,并提升大型模型的推理能力。
🎯 应用场景
UEC-RL具有广泛的应用前景,可以应用于各种需要复杂推理能力的场景,例如:数学问题求解、代码生成、机器人控制等。通过提升强化学习的探索能力和稳定性,UEC-RL可以帮助大型模型更好地解决复杂问题,并提高其在实际应用中的性能和可靠性。未来,UEC-RL有望成为提升大型模型智能水平的关键技术。
📄 摘要(原文)
Recent advances in reinforcement learning (RL) have improved the reasoning capabilities of large language models (LLMs) and vision-language models (VLMs). However, the widely used Group Relative Policy Optimization (GRPO) consistently suffers from entropy collapse, causing the policy to converge prematurely and lose diversity. Existing exploration methods introduce additional bias or variance during exploration, making it difficult to maintain optimization stability. We propose Unified Entropy Control for Reinforcement Learning (UEC-RL), a framework that provides targeted mechanisms for exploration and stabilization. UEC-RL activates more exploration on difficult prompts to search for potential and valuable reasoning trajectories. In parallel, a stabilizer prevents entropy from growing uncontrollably, thereby keeping training stable as the model consolidates reliable behaviors. Together, these components expand the search space when needed while maintaining robust optimization throughout training. Experiments on both LLM and VLM reasoning tasks show consistent gains over RL baselines on both Pass@1 and Pass@$k$. On Geometry3K, UEC-RL achieves a 37.9\% relative improvement over GRPO, indicating that it sustains effective exploration without compromising convergence and underscoring UEC-RL as a key for scaling RL-based reasoning in large models. Our code is available at https://github.com/597358816/UEC-RL.