Enhancing Long Chain-of-Thought Reasoning through Multi-Path Plan Aggregation
作者: Siheng Xiong, Ali Payani, Faramarz Fekri
分类: cs.CL
发布日期: 2025-10-13 (更新: 2025-10-16)
💡 一句话要点
提出多路径规划聚合MPPA框架,增强语言模型长链式推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长链式推理 多路径规划 规划聚合 过程级偏好优化 强化学习 语言模型 LoRA
📋 核心要点
- 现有语言模型在长链式推理中,单次生成推理链容易累积误差,导致推理偏离,尤其是在小型模型上更为严重。
- 论文提出多路径规划聚合(MPPA)框架,通过探索和聚合多个候选规划来改进推理,减轻误差累积的影响。
- 实验表明,MPPA在数学、科学和逻辑推理任务上,仅用少量数据即可超越现有蒸馏和强化学习基线。
📝 摘要(中文)
本文提出了一种名为多路径规划聚合(MPPA)的框架,旨在增强语言模型(LM)的长链式推理能力。现有方法通常一次性生成整个推理链,容易因累积误差导致推理轨迹偏离。MPPA通过探索和聚合多个候选规划来改进单次推理。该方法基于token位置采用可变间隔调度,生成多个候选规划,并将它们聚合为精炼的规划步骤。为了提高效率,MPPA采用最小化设计,基础LM作为主要策略,轻量级LoRA模块实现规划聚合策略。此外,本文提出在线Step-DPO,一种过程级偏好优化方案,利用Twisted Sequential Monte Carlo(TSMC)为小型LM提供可扩展的逐步监督,从而实现更高效的训练、更高的稳定性和更高的准确性。在具有挑战性的数学、科学和逻辑推理基准测试中,实验表明,仅使用10%的SFT数据和5%的偏好对,该方法优于DeepSeek-R1蒸馏基线和结果奖励RL基线。
🔬 方法详解
问题定义:现有语言模型在执行长链式推理时,通常采用单次前向传播生成整个推理链。这种方法容易受到累积误差的影响,导致推理过程偏离正确方向,尤其是在参数量较小的语言模型上,这个问题更加突出。现有的基于结果奖励的强化学习方法在长序列上效率较低。
核心思路:论文的核心思路是将长链式推理分解为规划和执行两个阶段,并重点优化规划阶段。通过生成多个候选规划,并利用聚合策略选择或组合这些规划,从而减少规划阶段的错误,提高整体推理的准确性。同时,采用过程级的偏好优化方法,克服长序列强化学习的效率问题。
技术框架:MPPA框架主要包含以下几个阶段:1) 基于token位置的可变间隔调度,生成多个候选规划;2) 使用轻量级LoRA模块实现规划聚合策略,将多个候选规划聚合为精炼的规划步骤;3) 使用基础LM执行推理链的后续步骤;4) 采用在线Step-DPO进行过程级偏好优化,利用TSMC提供可扩展的逐步监督。
关键创新:论文的关键创新在于:1) 提出了多路径规划聚合的思想,通过探索多个候选规划来提高规划的准确性;2) 提出了在线Step-DPO,一种过程级偏好优化方案,解决了长序列强化学习的效率问题;3) 采用轻量级LoRA模块实现规划聚合策略,降低了计算成本。
关键设计:MPPA的关键设计包括:1) 可变间隔调度策略,用于控制候选规划的生成频率;2) 基于LoRA的规划聚合模块,用于选择或组合多个候选规划;3) 基于TSMC的在线Step-DPO,用于提供过程级的监督信号。具体参数设置和损失函数细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MPPA方法在多个具有挑战性的推理基准测试中取得了显著的性能提升。仅使用10%的SFT数据和5%的偏好对,MPPA就超越了DeepSeek-R1蒸馏基线和结果奖励RL基线。这表明MPPA在数据效率和性能方面都具有优势。
🎯 应用场景
该研究成果可应用于需要复杂推理能力的各种场景,例如数学问题求解、科学推理、逻辑推理、代码生成等。通过提高语言模型在长链式推理中的准确性和稳定性,可以提升AI在这些领域的应用效果,并为开发更智能的AI系统奠定基础。
📄 摘要(原文)
Inference-time scaling enhances the reasoning ability of a language model (LM) by extending its chain-of-thought (CoT). However, existing approaches typically generate the entire reasoning chain in a single forward pass, which often leads to CoT derailment, i.e., the reasoning trajectory drifting off course due to compounding errors. This problem is particularly severe for smaller LMs with long CoTs due to their limited capacity. To address this, we analyze raw long CoTs and uncover a reasoning hierarchy consisting of planning and execution steps. Our analysis reveals that most reasoning errors stem from incorrect planning. Motivated by this observation, we propose Multi-Path Plan Aggregation (MPPA), a framework that augments single-pass reasoning with plan exploration and aggregation. Following a variable interval schedule based on the token position, MPPA generates multiple candidate plans and aggregates them into a refined planning step. To maintain efficiency, we adopt a minimal design in which the base LM serves as the primary policy, while a lightweight LoRA module implements the plan aggregation policy. We further observe that outcome-reward RL is inefficient for long trajectories (e.g., exceeding 4K tokens). To overcome this, we introduce online Step-DPO, a process-level preference optimization scheme that leverages Twisted Sequential Monte Carlo (TSMC) to provide scalable stepwise supervision using small LMs. This yields more efficient training, improved stability, and higher accuracy. Extensive experiments on challenging math, science, and logical reasoning benchmarks demonstrate that, with only 10% SFT data and 5% of preference pairs, our method outperforms both the DeepSeek-R1 distillation baseline and the outcome-reward RL baseline across multiple base models and tasks.