STOP: Structured On-Policy Pruning of Long-Form Reasoning in Low-Data Regimes

📄 arXiv: 2605.13165v1 📥 PDF

作者: Chenjun Xu, Zhennan Zhou, Zhan Su, Bill Howe, Lucy Lu Wang, Bingbing Wen

分类: cs.CL

发布日期: 2026-05-13

备注: 20 pages, 6 figures, 6 tables. Code available at: https://github.com/chenjux/ECN-STOP


💡 一句话要点

提出STOP算法,用于低数据场景下长链推理的结构化策略剪枝。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长链推理 策略剪枝 低数据学习 自蒸馏 结构化推理 推理效率 ECN剪枝

📋 核心要点

  1. 长链推理虽提升性能,但易产生冗余推理,增加计算成本,尤其在低数据微调场景下问题突出。
  2. STOP算法通过结构化分析和剪枝推理轨迹,保留关键推理步骤,去除冗余信息,提升效率。
  3. 实验表明,STOP在低数据微调中显著减少token生成量,同时保持准确性,并改善推理结构。

📝 摘要(中文)

长链思考(Long CoT)推理可以提高多步骤问题的性能,但也会导致过度思考:模型经常生成低效的推理过程,从而增加推理成本和延迟。这种低效率在低数据微调环境中尤其成问题,在这些环境中,实际应用使用有限的监督来调整推理模型,并且不能依赖大规模的教师蒸馏或繁重的测试时控制。为了解决这个问题,我们提出了一种名为STOP(结构化策略剪枝)的策略算法,用于分析和剪枝长格式推理轨迹。STOP从模型中构建自蒸馏轨迹,然后通过节点分割、分类注释和推理树构建将每个轨迹映射到结构化的推理界面。在此基础上,我们引入了ECN(最早正确节点),它保留了最短的前缀,该前缀结束于最早的节点,该节点既充当答案结论又产生正确的最终答案,从而消除了解决后冗余推理,同时保持了语义连续性。在GSM8K、Math 500和AIME 2024上对DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-LLaMA-3-8B进行的实验表明,STOP在低数据微调中将生成的token减少了19.4-42.4%,同时在很大程度上保持了准确性。除了效率之外,我们的分析表明,STOP比教师指导的剪枝引起的分布偏移小得多,提高了生成推理的结构效率,并将推理工作从冗余验证和回溯重新分配到更富有成效的探索。

🔬 方法详解

问题定义:论文旨在解决长链推理模型在低数据场景下推理效率低下的问题。现有方法,如教师指导的剪枝,容易导致分布偏移,影响模型性能。模型在推理过程中会产生大量冗余的验证和回溯步骤,增加了计算成本和延迟。

核心思路:STOP算法的核心思路是通过结构化分析推理轨迹,识别并保留对最终答案贡献最大的推理步骤,同时去除冗余的推理过程。通过自蒸馏的方式生成推理轨迹,并构建结构化的推理界面,从而实现对推理过程的精细化控制。

技术框架:STOP算法包含以下主要阶段:1) 自蒸馏轨迹生成:利用模型自身生成推理轨迹。2) 结构化推理界面构建:将推理轨迹分割成节点,进行分类注释,并构建推理树。3) ECN(Earliest Correct Node)剪枝:保留最短的前缀,该前缀结束于最早的正确节点,该节点既是答案结论,又能产生正确的最终答案。

关键创新:STOP算法的关键创新在于其结构化的推理分析和剪枝方法。与传统的教师指导剪枝方法不同,STOP采用自蒸馏的方式生成推理轨迹,避免了对外部知识的依赖,降低了分布偏移的风险。ECN剪枝策略能够有效地去除冗余的推理步骤,同时保持语义的连续性。

关键设计:STOP算法的关键设计包括:1) 节点分割和分类注释:采用启发式规则或机器学习方法将推理轨迹分割成有意义的节点,并对节点进行分类注释,例如问题、假设、结论等。2) 推理树构建:根据节点之间的依赖关系构建推理树,从而更好地理解推理过程。3) ECN剪枝策略:通过搜索推理树,找到最早的正确节点,并保留从根节点到该节点的最短路径。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,STOP算法在GSM8K、Math 500和AIME 2024数据集上,使用DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-LLaMA-3-8B模型进行低数据微调时,能够将生成的token数量减少19.4-42.4%,同时保持了准确性。此外,STOP算法比教师指导的剪枝方法引起的分布偏移更小,并提高了生成推理的结构效率。

🎯 应用场景

STOP算法可应用于各种需要长链推理的场景,例如数学问题求解、代码生成、知识图谱推理等。该算法尤其适用于资源受限的设备或低延迟要求的应用,例如移动设备上的智能助手或边缘计算环境。通过减少推理所需的计算量,STOP算法可以降低能耗,提高响应速度,并扩展模型的应用范围。

📄 摘要(原文)

Long chain-of-thought (Long CoT) reasoning improves performance on multi-step problems, but it also induces overthinking: models often generate low-yield reasoning that increases inference cost and latency. This inefficiency is especially problematic in low-data fine-tuning regimes, where real applications adapt reasoning models with limited supervision and cannot rely on large-scale teacher distillation or heavy test-time control. To address this, we propose STOP (Structured On-policy Pruning), an on-policy algorithm for analyzing and pruning long-form reasoning traces. STOP constructs self-distilled traces from the model. Then it maps each trace into a structured reasoning interface through node segmentation, taxonomy annotation, and reasoning-tree construction. On top of this interface, we introduce ECN (Earliest Correct Node), which retains the shortest prefix ending at the earliest node that both functions as an answering conclusion and yields the correct final answer, removing redundant post-solution reasoning while preserving semantic continuity. Experiments on DeepSeek-R1-Distill-Qwen-7B and DeepSeek-R1-Distill-LLaMA-3-8B across GSM8K, Math 500, and AIME 2024 show that STOP reduces generated tokens by 19.4-42.4% while largely preserving accuracy in low-data fine-tuning. Beyond efficiency, our analyses show that STOP induces much smaller distributional shift than teacher-guided pruning, improves the structural efficiency of generated reasoning, and reallocates reasoning effort away from redundant verification and backtracking toward more productive exploration.