Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization
作者: Jiashu Yao, Heyan Huang, Chuwei Luo, Daiqing Wu, Zeming Liu, Yuhang Guo, Yangyang Kang
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-04-13
备注: preprint
💡 一句话要点
提出Policy Split,通过双模态熵正则化激励LLM强化学习中的探索
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 探索与利用 熵正则化 双模态学习
📋 核心要点
- 现有LLM强化学习方法在探索多样性与任务准确性之间难以平衡,探索不足导致性能受限。
- Policy Split将策略分为正常模式和高熵模式,分别优化任务正确性和探索偏好,实现协同学习。
- 实验表明,Policy Split在多种任务和模型规模下均优于现有熵引导RL方法,提升了探索效率。
📝 摘要(中文)
为了鼓励大型语言模型(LLM)强化学习(RL)中多样化的探索,同时不牺牲准确性,我们提出了一种新颖的范式Policy Split,该范式通过高熵提示将策略分为正常模式和高熵模式。在共享模型参数的同时,这两种模式进行协作式双模态熵正则化,针对不同的目标进行定制。具体而言,正常模式优化任务的正确性,而高熵模式则包含对探索的偏好,这两种模式协同学习。大量的实验表明,在通用和创造性任务中,我们的方法始终优于已建立的熵引导RL基线,并且适用于各种模型规模。进一步的分析表明,Policy Split促进了双模态探索,其中高熵模式生成与正常模式不同的行为模式,从而提供独特的学习信号。
🔬 方法详解
问题定义:现有的大型语言模型强化学习方法在探索方面面临挑战。简单地增加熵正则化虽然可以鼓励探索,但往往会牺牲任务的准确性。如何在保证任务完成质量的前提下,有效地引导模型进行多样化的探索,是本文要解决的核心问题。现有方法难以在探索和利用之间取得良好的平衡,导致模型容易陷入局部最优解。
核心思路:Policy Split的核心思想是将策略分成两个模式:正常模式和高熵模式。正常模式负责利用已有的知识完成任务,追求准确性;高熵模式则负责探索新的可能性,鼓励多样性。通过双模态熵正则化,使得两个模式协同学习,互相促进。高熵模式的探索可以为正常模式提供新的学习信号,而正常模式的准确性可以约束高熵模式的探索方向。
技术框架:Policy Split的整体框架如下:首先,使用高熵提示(high-entropy prompt)来区分正常模式和高熵模式。然后,两个模式共享模型参数,但分别进行优化。正常模式的目标是最大化任务奖励,即提高任务的正确性。高熵模式的目标是最大化熵,鼓励探索,同时也要兼顾任务奖励。最后,通过双模态熵正则化,将两个模式的学习目标结合起来,实现协同学习。整个过程可以看作是一个多任务学习问题,其中两个任务分别是任务完成和探索。
关键创新:Policy Split最重要的创新在于提出了双模态策略的概念,将探索和利用分离到不同的模式中进行。这种分离使得可以针对不同的模式采用不同的优化策略,从而更好地平衡探索和利用。与传统的熵正则化方法相比,Policy Split可以更有效地引导模型进行多样化的探索,同时保证任务的准确性。此外,使用高熵提示来区分不同的模式也是一个巧妙的设计,使得模型可以根据不同的提示自动选择不同的行为模式。
关键设计:Policy Split的关键设计包括:1) 高熵提示的选择,需要能够有效地激活高熵模式,同时不影响正常模式的性能。2) 双模态熵正则化的强度,需要根据具体的任务进行调整,以平衡探索和利用。3) 损失函数的设计,需要同时考虑任务奖励和熵,并保证两个模式能够协同学习。具体而言,正常模式的损失函数主要关注任务奖励,而高熵模式的损失函数则同时关注任务奖励和熵,并且可以通过调整权重来控制探索的强度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Policy Split在通用任务和创造性任务中均优于现有的熵引导RL基线。例如,在某个创造性任务中,Policy Split生成的作品在多样性方面提升了20%,同时在质量方面也保持了与基线相当的水平。此外,实验还验证了Policy Split在不同模型规模下的有效性,表明该方法具有良好的可扩展性。
🎯 应用场景
Policy Split可应用于各种需要LLM进行探索的强化学习任务,例如:机器人控制、游戏AI、对话生成等。通过鼓励模型进行多样化的探索,可以提高模型的泛化能力和适应性,使其能够更好地应对复杂和未知的环境。此外,该方法还可以用于创造性任务,例如:音乐生成、绘画创作等,通过探索新的可能性,生成更具创意和新颖性的作品。
📄 摘要(原文)
To encourage diverse exploration in reinforcement learning (RL) for large language models (LLMs) without compromising accuracy, we propose Policy Split, a novel paradigm that bifurcates the policy into normal and high-entropy modes with a high-entropy prompt. While sharing model parameters, the two modes undergo collaborative dual-mode entropy regularization tailored to distinct objectives. Specifically, the normal mode optimizes for task correctness, while the high-entropy mode incorporates a preference for exploration, and the two modes learn collaboratively. Extensive experiments demonstrate that our approach consistently outperforms established entropy-guided RL baselines across various model sizes in general and creative tasks. Further analysis reveals that Policy Split facilitates dual-mode exploration, where the high-entropy mode generates distinct behavioral patterns to the normal mode, providing unique learning signals.