Graph-Based Chain-of-Thought Pruning for Reducing Redundant Reflections in Reasoning LLMs
作者: Hongyuan Yuan, Xinran He, Run Shao, Bolei He, Xianwei Xue, Mengke Chen, Qiutong Pan, Haiwei Wang, Haifeng Li
分类: cs.CL
发布日期: 2026-04-07
💡 一句话要点
提出基于图的思维链剪枝方法,减少推理LLM中的冗余反思
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 思维链 大型语言模型 强化学习 图剪枝 推理优化
📋 核心要点
- 现有基于强化学习的CoT方法易导致LLM过度思考,产生冗余推理内容。
- 论文提出基于图的CoT优化框架,通过双重剪枝策略减少冗余反思。
- 实验表明,该方法在保持或提高准确性的同时,显著减少了推理token。
📝 摘要(中文)
通过强化学习扩展思维链(CoT)已被广泛用于增强大型语言模型(LLM)的推理能力。然而,由于奖励信号的稀疏性,它也可能导致不良的思维模式,例如过度思考,即生成冗余的中间推理内容。本文认为,这种冗余的主要来源是低效的反思,这通常表现为两种问题模式:无差别反思,即模型在整个推理过程中执行广泛但低影响的检查;重复反思,即模型重复验证已经确立的结论。为了解决这个问题,我们引入了一个基于图的CoT优化框架。具体来说,我们将每个线性CoT转换为具有显式依赖边的有向无环图(DAG),并设计了一种双重剪枝策略:分支级别剪枝删除贡献较弱的反思分支,而深度级别剪枝消除后期阶段的重复验证。我们通过一个三阶段流程来提炼这种行为:(1)SFT在剪枝后的简洁轨迹上初始化策略,(2)DPO偏好正确但冗余较少的轨迹,(3)GRPO使用长度惩罚来联合优化答案的正确性和效率。实验表明,我们的方法在保持或提高准确性的同时,将平均推理token减少了42%。
🔬 方法详解
问题定义:现有基于强化学习的CoT方法,在提升LLM推理能力的同时,容易因为奖励信号稀疏性导致过度思考,产生冗余的中间推理步骤,降低效率。具体表现为无差别反思(Indiscriminate Reflection)和重复反思(Repetitive Reflection),前者指模型进行广泛但低效的检查,后者指模型重复验证已确认的结论。
核心思路:论文的核心思路是将线性的CoT推理过程转化为有向无环图(DAG),显式地表示推理步骤之间的依赖关系。然后,通过剪枝策略去除图中贡献较弱的反思分支和重复验证的节点,从而减少冗余的推理步骤,提高推理效率。这样设计的目的是为了让模型专注于关键的推理步骤,避免不必要的计算开销。
技术框架:该方法包含一个三阶段的训练流程: 1. SFT (Supervised Fine-Tuning):在剪枝后的简洁轨迹上初始化策略,让模型学习精简的推理路径。 2. DPO (Direct Preference Optimization):使用DPO算法,让模型偏好正确但冗余较少的轨迹,鼓励模型生成更简洁的推理过程。 3. GRPO (Graph-based Preference Optimization):使用GRPO算法,并引入长度惩罚,联合优化答案的正确性和推理效率,进一步提升模型的性能。
关键创新:该方法最重要的创新点在于将CoT推理过程表示为图结构,并提出了双重剪枝策略。这种图表示方法能够更清晰地捕捉推理步骤之间的依赖关系,而剪枝策略能够有效地去除冗余的反思步骤,从而提高推理效率。与传统的CoT方法相比,该方法能够更好地控制推理过程,避免过度思考。
关键设计: 1. 图构建:将线性CoT转化为DAG,节点表示推理步骤,边表示依赖关系。 2. 分支级别剪枝:删除贡献较弱的反思分支,通过某种指标(例如梯度或注意力权重)评估分支的重要性。 3. 深度级别剪枝:消除后期阶段的重复验证,通过检测相似的推理步骤来判断是否需要剪枝。 4. 长度惩罚:在GRPO训练过程中,引入长度惩罚项,鼓励模型生成更短的推理路径。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在保持或提高准确性的前提下,将平均推理token减少了42%。这意味着在相同的计算资源下,模型可以处理更多的推理任务,或者在相同的任务量下,可以节省大量的计算成本。具体的实验数据集和基线模型未知。
🎯 应用场景
该研究成果可应用于各种需要复杂推理的自然语言处理任务,例如问答系统、对话系统、知识图谱推理等。通过减少冗余推理步骤,可以显著提高LLM的推理效率,降低计算成本,并提升用户体验。未来,该方法有望推广到其他类型的推理任务,并与其他优化技术相结合,进一步提升LLM的性能。
📄 摘要(原文)
Extending CoT through RL has been widely used to enhance the reasoning capabilities of LLMs. However, due to the sparsity of reward signals, it can also induce undesirable thinking patterns such as overthinking, i.e., generating redundant intermediate reasoning content. In this work, we argue that a major source of such redundancy is inefficient reflection, which often manifests in two problematic patterns: Indiscriminate Reflection, where the model performs broad, low-impact checks throughout reasoning, and Repetitive Reflection, where it repeatedly re-verifies an already established conclusion. To address this, we introduce a graph-based CoT optimization framework. Specifically, we convert each linear CoT into a directed acyclic graph (DAG) with explicit dependency edges, and design a dual pruning strategy: branch-level pruning removes weakly contributing reflection branches, while depth-level pruning eliminates late-stage re-verification. We distill this behavior via a three-stage pipeline: (1) SFT to initialize the policy on pruned concise traces, (2) DPO to prefer correct but less redundant trajectories, and (3) GRPO with length penalty to jointly optimize answer correctness and efficiency. Experiments show that our approach reduces the average reasoning tokens by 42\% while maintaining or improving accuracy.