Targeted Exploration via Unified Entropy Control for Reinforcement Learning

作者: Chen Wang, Lai Wei, Yanzhi Zhang, Chenyang Shao, Zedong Dan, Weiran Huang, Ge Lan, Yue Wang

分类: cs.AI

发布日期: 2026-04-16

备注: Accepted for publication in Findings of the 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026)

🔗 代码/项目: GITHUB

💡 一句话要点

提出UEC-RL，通过统一熵控制解决强化学习中探索不足和策略坍塌问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 熵控制 探索与利用 大型语言模型 视觉语言模型

📋 核心要点

现有强化学习方法，如GRPO，在应用于大型模型推理时，常因熵坍塌导致策略过早收敛，缺乏探索。
UEC-RL通过统一熵控制，在困难提示上增加探索，同时使用稳定器防止熵无控制增长，维持训练稳定。
实验表明，UEC-RL在LLM和VLM推理任务上优于现有RL基线，并在Geometry3K上相对GRPO提升了37.9%。

📝 摘要（中文）

近年来，强化学习(RL)的进展提升了大型语言模型(LLM)和视觉-语言模型(VLM)的推理能力。然而，广泛使用的Group Relative Policy Optimization (GRPO)始终面临熵坍塌问题，导致策略过早收敛并丧失多样性。现有的探索方法在探索过程中引入了额外的偏差或方差，难以维持优化稳定性。我们提出了用于强化学习的统一熵控制(UEC-RL)框架，该框架为探索和稳定提供了有针对性的机制。UEC-RL在困难的提示上激活更多的探索，以搜索潜在的和有价值的推理轨迹。同时，一个稳定器防止熵不受控制地增长，从而在模型巩固可靠行为时保持训练稳定。这些组件共同在需要时扩展搜索空间，并在整个训练过程中保持稳健的优化。在LLM和VLM推理任务上的实验表明，相对于RL基线，Pass@1和Pass@$k$均获得了持续的收益。在Geometry3K上，UEC-RL相对于GRPO实现了37.9%的相对改进，表明它在不影响收敛的情况下维持了有效的探索，并强调了UEC-RL作为扩展大型模型中基于RL的推理的关键。

🔬 方法详解

问题定义：论文旨在解决强化学习应用于大型语言模型和视觉语言模型推理任务时，由于策略优化算法（如GRPO）的熵坍塌问题导致的探索不足和策略多样性丧失。现有方法要么引入额外偏差，要么引入额外方差，难以保证优化稳定性。

核心思路：UEC-RL的核心思路是提供一个统一的熵控制框架，该框架能够根据任务的难易程度动态调整探索的强度，并在探索的同时维持训练的稳定性。通过在困难的提示上进行更多的探索，模型可以发现更有价值的推理轨迹。同时，通过稳定器来防止熵的过度增长，确保模型在学习到可靠行为后能够稳定收敛。

技术框架：UEC-RL框架包含两个主要组成部分：一个是针对性探索机制，用于在困难的提示上激活更多的探索；另一个是稳定器，用于防止熵不受控制地增长。整体流程是，首先判断当前状态的难度，如果难度较高，则增加探索的力度；然后，利用强化学习算法进行策略更新；最后，使用稳定器来约束策略的熵，防止其过度增长。

关键创新：UEC-RL的关键创新在于其统一的熵控制机制，它能够根据任务的难易程度动态调整探索的强度，并在探索的同时维持训练的稳定性。与现有方法相比，UEC-RL避免了引入额外的偏差或方差，从而保证了优化的稳定性。

关键设计：UEC-RL的关键设计包括：1) 如何定义和衡量提示的难度，这可能涉及到使用模型的不确定性或预测结果的置信度等指标；2) 如何设计针对性探索机制，例如，可以通过增加动作空间的多样性或引入噪声来实现；3) 如何设计稳定器，例如，可以使用熵正则化或KL散度约束等方法来限制策略的熵。

🖼️ 关键图片

📊 实验亮点

UEC-RL在Geometry3K数据集上实现了显著的性能提升，相对于GRPO基线，Pass@1指标提升了37.9%。实验结果表明，UEC-RL能够在不影响收敛的情况下维持有效的探索，验证了其在扩展大型模型中基于RL的推理能力方面的有效性。

🎯 应用场景

UEC-RL可应用于各种需要复杂推理能力的大型模型，例如数学问题求解、代码生成、视觉问答等。通过提升模型的探索能力和优化稳定性，可以显著提高模型在这些任务上的性能，并推动大型模型在实际应用中的落地。

📄 摘要（原文）

Recent advances in reinforcement learning (RL) have improved the reasoning capabilities of large language models (LLMs) and vision-language models (VLMs). However, the widely used Group Relative Policy Optimization (GRPO) consistently suffers from entropy collapse, causing the policy to converge prematurely and lose diversity. Existing exploration methods introduce additional bias or variance during exploration, making it difficult to maintain optimization stability. We propose Unified Entropy Control for Reinforcement Learning (UEC-RL), a framework that provides targeted mechanisms for exploration and stabilization. UEC-RL activates more exploration on difficult prompts to search for potential and valuable reasoning trajectories. In parallel, a stabilizer prevents entropy from growing uncontrollably, thereby keeping training stable as the model consolidates reliable behaviors. Together, these components expand the search space when needed while maintaining robust optimization throughout training. Experiments on both LLM and VLM reasoning tasks show consistent gains over RL baselines on both Pass@1 and Pass@$k$. On Geometry3K, UEC-RL achieves a 37.9\% relative improvement over GRPO, indicating that it sustains effective exploration without compromising convergence and underscoring UEC-RL as a key for scaling RL-based reasoning in large models. Our code is available at https://github.com/597358816/UEC-RL.

Targeted Exploration via Unified Entropy Control for Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理