Divide-and-Conquer CoT: RL for Reducing Latency via Parallel Reasoning

📄 arXiv: 2601.23027v1 📥 PDF

作者: Arvind Mahankali, Kaiyue Wen, Tengyu Ma

分类: cs.LG

发布日期: 2026-01-30

备注: 47 pages, 13 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出DC-CoT,通过并行推理减少LLM中CoT的长推理延迟

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 链式思考 并行推理 强化学习 延迟优化 数学推理

📋 核心要点

  1. 长链式思考推理(Long CoT)是先进LLM的基础,但其高度串行的生成方式导致高延迟,限制了实际应用。
  2. DC-CoT通过将复杂推理分解为可并行执行的子任务,并分配给不同的“工人”执行,从而缩短推理时间。
  3. 实验表明,DC-CoT在保持准确率的同时,显著降低了最长路径长度,有效减少了推理延迟。

📝 摘要(中文)

本文提出Divide-and-Conquer CoT (DC-CoT),旨在降低长链式思考推理(Long CoT)带来的高延迟问题。DC-CoT模型充当“导演”,识别推理过程中可并行执行的子任务,并生成“工人”来执行这些子任务。目标是在保证高准确率的同时,降低最长路径长度,以此作为衡量响应所需延迟的理论指标。该方法首先使用少量精选的演示数据集,通过监督微调(SFT)初始化一个长CoT基础模型(DeepScaleR-1.5B-Preview),使其具备生成“工人”的能力。由于SFT会显著降低准确率,因此设计了一个多阶段强化学习(RL)算法,并结合各种数据过滤策略,以恢复准确率,同时减少最长路径长度。在AIME 2024和HMMT 2025等多个基准测试中,DC-CoT实现了与DeepScaleR-1.5B-Preview相似的准确率,同时将最长路径长度降低了35-40%。代码、SFT数据集和模型已公开。

🔬 方法详解

问题定义:论文旨在解决长链式思考推理(Long CoT)在大型语言模型中推理时产生的高延迟问题。现有的CoT方法由于其固有的顺序性,导致推理速度慢,尤其是在处理复杂的数学问题时,这一问题尤为突出。

核心思路:论文的核心思想是将复杂的推理过程分解为多个可以并行执行的子任务,类似于“分而治之”的策略。通过让模型学会识别这些独立的子任务,并生成相应的“工人”来并行处理它们,从而显著缩短整体的推理时间。

技术框架:DC-CoT的整体框架包含以下几个主要阶段:1) 使用长CoT基础模型(DeepScaleR-1.5B-Preview)作为起点;2) 通过监督微调(SFT)使模型具备生成“工人”的能力,即能够识别子任务并以特定格式生成指令;3) 使用多阶段强化学习(RL)算法,结合数据过滤策略,在降低最长路径长度的同时,恢复因SFT导致的准确率下降。

关键创新:该方法最重要的创新在于引入了并行推理的概念到CoT中,打破了传统CoT的顺序执行模式。通过让模型学会动态地分配任务给不同的“工人”,实现了推理过程的并行化,从而显著降低了延迟。与现有方法相比,DC-CoT能够在保证准确率的前提下,大幅缩短推理时间。

关键设计:在SFT阶段,论文使用了少量精选的演示数据集来引导模型学习生成“工人”的格式。在RL阶段,设计了多阶段的奖励函数,以平衡准确率和最长路径长度。同时,采用了数据过滤策略,筛选出高质量的训练数据,以提高RL的效率和效果。具体的参数设置和网络结构细节在论文中未详细说明,属于未知信息。

📊 实验亮点

实验结果表明,DC-CoT在AIME 2024和HMMT 2025等多个数学推理基准测试中,实现了与DeepScaleR-1.5B-Preview相似的准确率,同时将最长路径长度降低了35-40%。这一显著的延迟降低证明了DC-CoT在提高推理效率方面的有效性。

🎯 应用场景

DC-CoT具有广泛的应用前景,尤其是在对延迟敏感的场景中,例如在线问答、实时决策支持、智能客服等。通过降低LLM的推理延迟,可以提升用户体验,并使其能够应用于更多需要快速响应的实际问题。该研究为进一步探索并行推理在LLM中的应用奠定了基础。

📄 摘要(原文)

Long chain-of-thought reasoning (Long CoT) is now fundamental to state-of-the-art LLMs, especially in mathematical reasoning. However, LLM generation is highly sequential, and long CoTs lead to a high latency. We propose to train Divide-and-Conquer CoT (DC-CoT) to reduce the latency. With DC-CoT, the model can act as a director that identifies distinct subtasks that can be performed in parallel in its reasoning process, and then spawns workers to execute the subtasks. Our goal is to achieve high accuracy, with a low longest path length, which is a theoretical measure of the latency needed for the response. We start with a long CoT base model (DeepScaleR-1.5B-Preview), and first use SFT with a small curated demonstration set to initialize its ability to spawn workers in a certain format. Because SFT degrades the accuracy significantly, we design a multi-stage RL algorithm, with various data filtering strategies, to recover the accuracy while decreasing the longest path length. Across several benchmarks including AIME 2024 and HMMT 2025, DC-CoT achieves similar accuracy as DeepScaleR-1.5B-Preview while decreasing longest path length by 35-40%. Our code, SFT dataset and models are publicly available at https://github.com/amahankali10/DC_CoT_RL_for_Low_Latency_CoT_with_Parallel_Reasoning.