CURE: Critical-Token-Guided Re-Concatenation for Entropy-Collapse Prevention
作者: Qingbin Li, Rongkun Xue, Jie Wang, Ming Zhou, Zhi Li, Xiaofeng Ji, Yongqi Wang, Miao Liu, Zheming Yang, Minghui Qiu, Jing Yang
分类: cs.LG, cs.AI
发布日期: 2025-08-14 (更新: 2025-08-24)
🔗 代码/项目: GITHUB
💡 一句话要点
CURE:一种通过关键Token引导重拼接来防止熵崩溃的强化学习方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 熵崩溃 数学推理 轨迹优化 探索与利用 RLVR
📋 核心要点
- 现有RLVR方法在训练中重复使用静态初始状态采样,导致模型行为过于确定,出现熵崩溃问题。
- CURE框架通过在关键token处重新生成轨迹,并联合优化原始和分支轨迹,引导模型探索新颖上下文。
- 实验表明,CURE在数学推理任务上优于其他RLVR方法,并在熵和准确性方面均达到SOTA。
📝 摘要(中文)
近年来,基于验证奖励的强化学习(RLVR)的进步推动了大型语言模型(LLM)中更复杂的认知行为的出现,从而增强了它们的推理能力。然而,在先前的RLVR流程中,在每个采样阶段重复使用完全从数据集分布中提取的静态初始状态采样,会产生过度确定性的、低多样性的模型行为,这表现为快速的熵崩溃,并阻碍了长期训练期间的持续性能提升。为了解决这个问题,我们引入了CURE(Critical-token-gUided Re concatenation for Entropy-collapse prevention),这是一个平衡探索和利用的两阶段框架。具体来说,在第一阶段,为了有意识地引导模型走向新颖但连贯的上下文,我们在高熵的关键token处重新生成,并联合优化原始轨迹和分支轨迹。与vanilla DAPO的进一步比较表明,重新生成过程在数学推理任务上实现了更好的性能,同时保持了高水平的熵度以进行探索。在第二阶段,我们通过DAPO继续使用静态初始状态采样进行训练,有意识地将模型置于熟悉的状态,以逐步加强利用。在Qwen-2.5-Math-7B上的大量实验表明,与其他RLVR方法相比,CURE在六个数学基准测试中实现了5%的性能提升,在熵和准确性方面都建立了最先进的性能。一系列实验进一步验证了我们方法的有效性。
🔬 方法详解
问题定义:现有基于验证奖励的强化学习(RLVR)方法,在训练过程中,会重复使用从数据集分布中提取的静态初始状态。这种做法导致模型过度依赖已有的知识,探索能力不足,模型行为变得过于确定,从而引发熵崩溃问题,最终阻碍了模型性能的持续提升。
核心思路:CURE的核心思路是通过在训练过程中引入探索机制,鼓励模型探索更多样化的状态空间,从而缓解熵崩溃问题。具体来说,CURE并非完全依赖静态初始状态,而是在关键token处进行重新生成,创造新的上下文,引导模型探索未知的状态。
技术框架:CURE是一个两阶段的框架: 1. 探索阶段:在这一阶段,CURE识别高熵的关键token,并在这些token处重新生成轨迹。通过联合优化原始轨迹和重新生成的轨迹,模型能够学习到更多样化的行为模式。 2. 利用阶段:在这一阶段,CURE使用DAPO(Direct Preference Optimization)方法,利用静态初始状态进行训练,从而巩固模型已学习到的知识,并提高模型的性能。
关键创新:CURE的关键创新在于其动态的探索策略。与传统的RLVR方法不同,CURE并非完全依赖静态初始状态,而是在训练过程中动态地生成新的上下文,从而鼓励模型探索更多样化的状态空间。这种动态探索策略有效地缓解了熵崩溃问题,并提高了模型的性能。
关键设计: 1. 关键Token选择:CURE通过计算每个token的熵值来识别关键token。熵值越高,表示该token的不确定性越高,越有可能引导模型探索新的状态。 2. 轨迹重新生成:在关键token处,CURE使用模型重新生成后续的token序列,从而创建新的轨迹。 3. 联合优化:CURE同时优化原始轨迹和重新生成的轨迹,从而确保模型既能利用已有的知识,又能探索新的状态。
🖼️ 关键图片
📊 实验亮点
CURE在Qwen-2.5-Math-7B模型上进行了广泛的实验,并在六个数学基准测试中取得了显著的性能提升。实验结果表明,CURE相比其他RLVR方法,性能提升了5%,并在熵和准确性方面均达到了最先进的水平。这些结果充分验证了CURE方法的有效性。
🎯 应用场景
CURE方法可应用于各种需要大型语言模型进行推理和决策的场景,例如数学问题求解、代码生成、对话系统等。通过缓解熵崩溃问题,CURE可以提高模型在这些任务中的性能和鲁棒性,使其能够更好地适应复杂和动态的环境。该研究对于提升LLM的认知能力和实际应用价值具有重要意义。
📄 摘要(原文)
Recent advances in Reinforcement Learning with Verified Reward (RLVR) have driven the emergence of more sophisticated cognitive behaviors in large language models (LLMs), thereby enhancing their reasoning capabilities. However, in prior RLVR pipelines, the repeated use of static initial-state sampling drawn exactly from the dataset distribution during each sampling phase produced overly deterministic, low diversity model behavior, which manifested as rapid entropy collapse and hindered sustained performance gains during prolonged training. To address this issue, we introduce CURE (Critical-token-gUided Re concatenation for Entropy-collapse prevention), a two-stage framework that balances exploration and exploitation. Specifically, in the first stage, to deliberately steer the model toward novel yet coherent contexts, we re-generate at high-entropy critical tokens and jointly optimize the original and the branched trajectories. The further comparison with vanilla DAPO shows that the regeneration process achieves a better performance on math reasoning tasks while sustaining a high-level entropy degree for exploration. In the second stage, we continue training with static initial-state sampling by DAPO, intentionally placing the model in a familiar state to gradually strengthen exploitation. Extensive experiments on Qwen-2.5-Math-7B show that, compared to other RLVR methods, CURE achieves a 5% performance gain across six math benchmarks, establishing state-of-the-art performance in both entropy and accuracy. A series of experiments further validate the effectiveness of our approach. Code is available at https://github.com/bytedance/CURE.