Stabilizing Efficient Reasoning with Step-Level Advantage Selection

📄 arXiv: 2604.24003v1 📥 PDF

作者: Han Wang, Xiaodong Yu, Jialian Wu, Jiang Liu, Ximeng Sun, Mohit Bansal, Zicheng Liu

分类: cs.CL, cs.LG

发布日期: 2026-04-27

备注: Findings of ACL 2026, Code: https://github.com/HanNight/SAS


💡 一句话要点

提出步级优势选择(SAS)以稳定高效推理,提升LLM在短上下文下的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 高效推理 大型语言模型 强化学习 步级优势选择 短上下文学习

📋 核心要点

  1. 现有高效推理方法在短上下文后训练时,会牺牲训练稳定性和准确性。
  2. 提出步级优势选择(SAS),通过在推理步骤级别选择优势,稳定训练过程。
  3. 实验表明,SAS在提升准确率的同时,显著减少了推理长度,实现了更好的效率。

📝 摘要(中文)

大型语言模型(LLMs)通过在推理时分配大量计算资源,生成冗长的推理过程,从而获得强大的推理性能。为了提高效率,现有工作通过基于长度的奖励或剪枝来减少这种开销。然而,许多方法是在比基础模型训练短得多的上下文窗口下进行后训练的,这种因素的影响尚未被系统地隔离。本文首先表明,仅使用短上下文后训练,即使使用标准GRPO且不使用任何长度感知目标,也能显著压缩推理过程,但代价是训练动态变得越来越不稳定,且准确率下降。为了解决这个问题,本文提出了步级优势选择(SAS),它在推理步骤级别操作,对正确rollout中的低置信度步骤和验证器失败的rollout中的高置信度步骤分配零优势。在各种数学和通用推理基准测试中,SAS比最强的长度感知基线平均提高0.86个Pass@1准确率,同时平均减少16.3%的推理长度,从而实现了更好的准确率-效率权衡。

🔬 方法详解

问题定义:现有的大型语言模型在推理时需要大量的计算资源,生成冗长的推理过程。为了提高效率,一些方法通过长度奖励或剪枝来减少计算开销。然而,这些方法通常在比基础模型训练更短的上下文窗口下进行后训练,这会导致训练不稳定和准确率下降。因此,需要一种方法能够在短上下文下稳定地进行高效推理,同时保持或提高准确率。

核心思路:本文的核心思路是,通过在推理步骤级别选择优势(advantage),来稳定训练过程。具体来说,对于正确的推理过程,降低低置信度步骤的优势;对于验证器失败的推理过程,降低高置信度步骤的优势。这样可以避免因为推理过程中的错误步骤或验证器的问题而导致整个推理过程被错误地评估。

技术框架:SAS方法主要包含以下几个阶段:1) 使用大型语言模型生成推理过程;2) 使用验证器评估推理过程的正确性;3) 对于每个推理步骤,计算其置信度;4) 根据推理过程的正确性和步骤的置信度,计算每个步骤的优势;5) 使用计算得到的优势来更新语言模型的参数。整体流程是标准的强化学习流程,但关键在于优势函数的计算方式。

关键创新:SAS方法最重要的技术创新点在于其步级优势选择机制。与传统的基于整个推理过程的奖励或优势不同,SAS方法能够更细粒度地评估每个推理步骤的贡献,从而更准确地指导模型的训练。这种步级选择机制能够有效地解决短上下文后训练带来的训练不稳定问题。

关键设计:SAS的关键设计在于优势函数的计算方式。对于正确的推理过程,如果某个步骤的置信度低于阈值,则将其优势设置为0。对于验证器失败的推理过程,如果某个步骤的置信度高于阈值,则将其优势设置为0。此外,论文还使用了GRPO(Generalized Policy Optimization)作为强化学习的训练算法,并针对推理长度进行了优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SAS方法在数学和通用推理基准测试中,比最强的长度感知基线平均提高了0.86个Pass@1准确率,同时平均减少了16.3%的推理长度。这表明SAS方法能够在提高准确率的同时,显著提高推理效率,实现了更好的准确率-效率权衡。

🎯 应用场景

该研究成果可应用于各种需要高效推理的场景,例如数学问题求解、常识推理、代码生成等。通过减少推理所需的计算资源,可以降低部署成本,提高响应速度,并使大型语言模型能够在资源受限的设备上运行。此外,该方法还可以用于提高语言模型的鲁棒性和泛化能力。

📄 摘要(原文)

Large language models (LLMs) achieve strong reasoning performance by allocating substantial computation at inference time, often generating long and verbose reasoning traces. While recent work on efficient reasoning reduces this overhead through length-based rewards or pruning, many approaches are post-trained under a much shorter context window than base-model training, a factor whose effect has not been systematically isolated. We first show that short-context post-training alone, using standard GRPO without any length-aware objective, already induces substantial reasoning compression-but at the cost of increasingly unstable training dynamics and accuracy degradation. To address this, we propose Step-level Advantage Selection (SAS), which operates at the reasoning-step level and assigns a zero advantage to low-confidence steps in correct rollouts and to high-confidence steps in verifier-failed rollouts, where failures often arise from truncation or verifier issues rather than incorrect reasoning. Across diverse mathematical and general reasoning benchmarks, SAS improves average Pass@1 accuracy by 0.86 points over the strongest length-aware baseline while reducing average reasoning length by 16.3%, yielding a better accuracy-efficiency trade-off.