CLORE: Content-Level Optimization for Reasoning Efficiency
作者: Yuyang Wu, Qiyao Xue, Guanxing Lu, Weichen Liu, Zihan Wang, Manling Li, Olexandr Isayev
分类: cs.AI
发布日期: 2026-05-21
备注: 9 pages, 9 figures
💡 一句话要点
CLORE:通过内容级优化提升大语言模型推理效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理效率 内容级优化 强化学习 数学推理
📋 核心要点
- 现有方法在提升大语言模型推理效率时,对中间推理内容的监督不足,导致推理过程冗余。
- CLORE通过内容级优化,编辑正确的推理轨迹,删除重复、无关或难以理解的内容,提升推理效率。
- 实验表明,CLORE在多个数学推理基准上提高了准确率-效率的权衡,并与现有方法兼容。
📝 摘要(中文)
强化学习后训练可以提升大型语言模型的推理能力,但通常会产生不必要的冗长、重复或语义不清晰的推理轨迹。现有的高效推理方法主要通过显式预算或感知长度的奖励来调节响应长度,对中间推理内容的监督较弱。我们提出了CLORE,一个内容级优化框架,通过编辑正确的on-policy rollouts来提高推理效率。CLORE使用外部增强模型来删除重复的片段、难以理解或与任务无关的内容,以及在解决方案建立后的多余推理,同时保留最终答案。由此产生的增强-原始对通过辅助的无参考DPO目标与标准策略梯度训练一起进行优化。通过将增强限制在正确的轨迹上并执行局部删除,CLORE使编辑后的rollouts接近策略分布,并减轻了off-policy不匹配。在DeepSeek-R1-Distill-Qwen-7B和Qwen2.5-Math-7B上,对五个数学推理基准的实验表明,CLORE提高了准确率-效率的权衡,并且与GRPO、DAPO、Training Efficient和ThinkPrune兼容。内容级分析进一步表明,CLORE减少了重复推理、难以理解的内容和答案后的探索,支持内容级监督作为长度级控制的补充方向。
🔬 方法详解
问题定义:现有的大语言模型推理方法,虽然可以通过强化学习进行后训练以提升推理能力,但常常生成冗长、重复、语义模糊的推理过程。现有的高效推理方法主要关注于控制输出的长度,例如通过设定预算或使用长度感知的奖励函数,而对中间推理过程的内容缺乏有效的监督和优化。这导致模型在找到答案后仍然会进行不必要的探索,或者包含大量无意义的重复内容,降低了推理效率。
核心思路:CLORE的核心思路是通过内容级别的优化来提升推理效率。具体来说,它不是简单地限制输出长度,而是通过编辑正确的推理轨迹,删除其中冗余、无关或难以理解的内容,从而使推理过程更加简洁高效。这种方法的核心在于对推理过程进行内容级别的理解和干预,而不是仅仅关注最终的输出长度。
技术框架:CLORE的整体框架包含以下几个主要模块:1) 增强模型:用于识别和删除推理轨迹中的冗余、无关或难以理解的内容。2) 增强-原始对生成:将原始的推理轨迹与经过增强模型编辑后的轨迹配对。3) 优化目标:使用一个辅助的无参考DPO(Direct Preference Optimization)目标与标准的策略梯度训练一起优化模型。4) 策略梯度训练:使用增强-原始对来更新模型参数,使其倾向于生成更简洁高效的推理轨迹。整个流程的关键在于增强模型的质量和优化目标的设置,以确保编辑后的轨迹仍然保持正确性,并且能够有效地提升推理效率。
关键创新:CLORE最重要的技术创新点在于其内容级别的优化策略。与现有方法仅仅关注输出长度不同,CLORE深入到推理过程的内部,通过识别和删除冗余内容来提升效率。此外,CLORE还采用了无参考DPO目标,避免了对人工标注数据的依赖,降低了训练成本。通过将增强限制在正确的轨迹上并执行局部删除,CLORE减轻了off-policy不匹配问题。
关键设计:CLORE的关键设计包括:1) 增强模型的选择:论文使用了一个外部的增强模型来识别和删除冗余内容,增强模型的性能直接影响CLORE的效果。2) 无参考DPO目标:使用无参考DPO目标来优化模型,避免了对人工标注数据的依赖。3) 局部删除策略:通过限制增强模型只进行局部删除,保证编辑后的轨迹仍然接近原始轨迹,从而减轻off-policy不匹配问题。4) 损失函数设计:将DPO损失与策略梯度损失结合,平衡了推理效率和准确率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CLORE在DeepSeek-R1-Distill-Qwen-7B和Qwen2.5-Math-7B上,对五个数学推理基准进行了测试,显著提高了准确率-效率的权衡。内容级分析表明,CLORE有效地减少了重复推理、难以理解的内容和答案后的探索。此外,CLORE与GRPO、DAPO、Training Efficient和ThinkPrune等现有方法兼容,表明其具有良好的通用性和可扩展性。
🎯 应用场景
CLORE具有广泛的应用前景,可以应用于各种需要高效推理的大语言模型应用场景,例如数学问题求解、代码生成、知识问答等。通过提升推理效率,CLORE可以降低计算成本,提高响应速度,并改善用户体验。此外,CLORE还可以作为一种通用的推理优化方法,与其他技术相结合,进一步提升大语言模型的性能。
📄 摘要(原文)
Reinforcement learning post-training has improved the reasoning ability of large language models, but often produces unnecessarily long, repetitive, or semantically opaque reasoning traces. Existing efficient reasoning methods mainly regulate response length through explicit budgets or length-aware rewards, leaving intermediate reasoning content weakly supervised. We propose CLORE, a content-level optimization framework that improves reasoning efficiency by editing correct on-policy rollouts. CLORE uses an external augmentation model to delete repetitive segments, illegible or task-irrelevant content, and superfluous reasoning after the solution is established, while preserving the final answer. The resulting augmented--original pairs are optimized with an auxiliary reference-free DPO objective alongside standard policy-gradient training. By restricting augmentation to correct trajectories and performing local deletion, CLORE keeps edited rollouts close to the policy distribution and mitigates off-policy mismatch. Experiments on DeepSeek-R1-Distill-Qwen-7B and Qwen2.5-Math-7B across five mathematical reasoning benchmarks show that CLORE improves the accuracy--efficiency trade-off and remains compatible with GRPO, DAPO, Training Efficient, and ThinkPrune. Content-level analyses further show that CLORE reduces repetitive reasoning, illegible content, and post-answer exploration, supporting content-level supervision as a complementary direction to length-level control.