Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization

作者: Jiashu Yao, Heyan Huang, Chuwei Luo, Daiqing Wu, Zeming Liu, Yuhang Guo, Yangyang Kang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-13

备注: preprint

💡 一句话要点

提出Policy Split，通过双模态熵正则化激励LLM强化学习中的探索

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 探索与利用 熵正则化 双模态学习

📋 核心要点

现有LLM强化学习方法在探索多样性与任务准确性之间难以平衡，探索不足导致性能受限。
Policy Split将策略分为正常模式和高熵模式，分别优化任务正确性和探索偏好，实现协同学习。
实验表明，Policy Split在多种任务和模型规模下均优于现有熵引导RL方法，提升了探索效率。

📝 摘要（中文）

为了鼓励大型语言模型（LLM）强化学习（RL）中多样化的探索，同时不牺牲准确性，我们提出了一种新颖的范式Policy Split，该范式通过高熵提示将策略分为正常模式和高熵模式。在共享模型参数的同时，这两种模式进行协作式双模态熵正则化，针对不同的目标进行定制。具体而言，正常模式优化任务的正确性，而高熵模式则包含对探索的偏好，这两种模式协同学习。大量的实验表明，在通用和创造性任务中，我们的方法始终优于已建立的熵引导RL基线，并且适用于各种模型规模。进一步的分析表明，Policy Split促进了双模态探索，其中高熵模式生成与正常模式不同的行为模式，从而提供独特的学习信号。

🔬 方法详解

问题定义：现有的大型语言模型强化学习方法在探索方面面临挑战。简单地增加熵正则化虽然可以鼓励探索，但往往会牺牲任务的准确性。如何在保证任务完成质量的前提下，有效地引导模型进行多样化的探索，是本文要解决的核心问题。现有方法难以在探索和利用之间取得良好的平衡，导致模型容易陷入局部最优解。

核心思路：Policy Split的核心思想是将策略分成两个模式：正常模式和高熵模式。正常模式负责利用已有的知识完成任务，追求准确性；高熵模式则负责探索新的可能性，鼓励多样性。通过双模态熵正则化，使得两个模式协同学习，互相促进。高熵模式的探索可以为正常模式提供新的学习信号，而正常模式的准确性可以约束高熵模式的探索方向。

技术框架：Policy Split的整体框架如下：首先，使用高熵提示（high-entropy prompt）来区分正常模式和高熵模式。然后，两个模式共享模型参数，但分别进行优化。正常模式的目标是最大化任务奖励，即提高任务的正确性。高熵模式的目标是最大化熵，鼓励探索，同时也要兼顾任务奖励。最后，通过双模态熵正则化，将两个模式的学习目标结合起来，实现协同学习。整个过程可以看作是一个多任务学习问题，其中两个任务分别是任务完成和探索。

关键创新：Policy Split最重要的创新在于提出了双模态策略的概念，将探索和利用分离到不同的模式中进行。这种分离使得可以针对不同的模式采用不同的优化策略，从而更好地平衡探索和利用。与传统的熵正则化方法相比，Policy Split可以更有效地引导模型进行多样化的探索，同时保证任务的准确性。此外，使用高熵提示来区分不同的模式也是一个巧妙的设计，使得模型可以根据不同的提示自动选择不同的行为模式。

关键设计：Policy Split的关键设计包括：1) 高熵提示的选择，需要能够有效地激活高熵模式，同时不影响正常模式的性能。2) 双模态熵正则化的强度，需要根据具体的任务进行调整，以平衡探索和利用。3) 损失函数的设计，需要同时考虑任务奖励和熵，并保证两个模式能够协同学习。具体而言，正常模式的损失函数主要关注任务奖励，而高熵模式的损失函数则同时关注任务奖励和熵，并且可以通过调整权重来控制探索的强度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Policy Split在通用任务和创造性任务中均优于现有的熵引导RL基线。例如，在某个创造性任务中，Policy Split生成的作品在多样性方面提升了20%，同时在质量方面也保持了与基线相当的水平。此外，实验还验证了Policy Split在不同模型规模下的有效性，表明该方法具有良好的可扩展性。

🎯 应用场景

Policy Split可应用于各种需要LLM进行探索的强化学习任务，例如：机器人控制、游戏AI、对话生成等。通过鼓励模型进行多样化的探索，可以提高模型的泛化能力和适应性，使其能够更好地应对复杂和未知的环境。此外，该方法还可以用于创造性任务，例如：音乐生成、绘画创作等，通过探索新的可能性，生成更具创意和新颖性的作品。

📄 摘要（原文）

To encourage diverse exploration in reinforcement learning (RL) for large language models (LLMs) without compromising accuracy, we propose Policy Split, a novel paradigm that bifurcates the policy into normal and high-entropy modes with a high-entropy prompt. While sharing model parameters, the two modes undergo collaborative dual-mode entropy regularization tailored to distinct objectives. Specifically, the normal mode optimizes for task correctness, while the high-entropy mode incorporates a preference for exploration, and the two modes learn collaboratively. Extensive experiments demonstrate that our approach consistently outperforms established entropy-guided RL baselines across various model sizes in general and creative tasks. Further analysis reveals that Policy Split facilitates dual-mode exploration, where the high-entropy mode generates distinct behavioral patterns to the normal mode, providing unique learning signals.

Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理