Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability
作者: Xiao Liang, Zhong-Zhi Li, Zhenghao Lin, Eric Hancheng Jiang, Hengyuan Zhang, Yelong Shen, Kai-Wei Chang, Ying Nian Wu, Yeyun Gong, Weizhu Chen
分类: cs.CL
发布日期: 2026-02-02
💡 一句话要点
提出基于强化学习的DAC训练框架,提升LLM在复杂推理任务上的可扩展性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 分而治之 强化学习 推理能力 可扩展性
📋 核心要点
- 现有LLM的CoT推理在复杂问题上受限于顺序性,难以有效探索解决方案。
- 提出基于强化学习的DAC框架,将问题分解为子问题并集成到RL训练中。
- 实验表明,该框架显著提升了LLM在复杂推理任务上的性能和可扩展性。
📝 摘要(中文)
大型语言模型(LLMs)通过逐步的思维链(CoT)推理展现了强大的推理能力。然而,当模型能力达到极限时,CoT往往显得不足,其严格的顺序性限制了测试时的可扩展性。一种潜在的替代方案是分而治之(DAC)推理,它将复杂问题分解为子问题,以促进更有效的解决方案探索。尽管前景广阔,但我们的分析揭示了通用后训练与DAC式推理之间存在根本的不一致,这限制了模型充分利用这种潜力的能力。为了弥合这一差距,并充分释放LLM在最具挑战性任务上的推理能力,我们提出了一个端到端的强化学习(RL)框架,以增强其DAC式推理能力。在每个步骤中,策略将问题分解为一组子问题,依次解决这些子问题,并根据子问题的解决方案解决原始问题,分解和解决方案都集成到RL训练中。在相当的训练下,我们的DAC式框架赋予模型更高的性能上限和更强的测试时可扩展性,在竞赛级别的基准测试中,Pass@1提高了8.6%,Pass@32提高了6.3%。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在复杂推理任务中,由于思维链(CoT)推理的顺序性限制,导致模型在测试时可扩展性不足的问题。现有的通用后训练方法与分而治之(DAC)推理风格不匹配,无法充分发挥LLM在复杂问题上的推理潜力。
核心思路:论文的核心思路是通过强化学习(RL)训练LLM,使其具备分而治之的推理能力。具体来说,模型学习如何将复杂问题分解为更小的、更容易解决的子问题,然后依次解决这些子问题,并利用子问题的解决方案来解决原始问题。这种分解和解决的过程都集成到RL训练中,从而使模型能够更好地适应DAC式的推理方式。
技术框架:整体框架是一个端到端的强化学习流程。在每个步骤中,策略网络负责将当前问题分解为一组子问题。然后,模型按顺序解决这些子问题,并将子问题的解决方案作为上下文信息,用于解决原始问题。整个过程通过奖励函数进行指导,奖励函数旨在鼓励模型生成正确的最终答案。该框架包含以下主要模块:问题分解模块、子问题求解模块和原始问题求解模块。
关键创新:最重要的技术创新点在于将分而治之的推理策略与强化学习训练相结合。与传统的CoT推理相比,DAC允许模型并行地探索多个解决方案路径,从而提高了解决复杂问题的效率和可扩展性。此外,通过RL训练,模型可以学习到最优的问题分解策略,从而进一步提升了推理性能。
关键设计:论文中关键的设计包括:1) 使用策略网络进行问题分解,该网络输出一组子问题;2) 使用预训练的LLM作为子问题求解器和原始问题求解器;3) 设计合适的奖励函数,鼓励模型生成正确的答案,并惩罚无效的分解策略;4) 使用Actor-Critic算法进行RL训练,其中Actor负责生成分解策略,Critic负责评估策略的质量。
📊 实验亮点
实验结果表明,该DAC式框架在竞赛级别的基准测试中显著优于CoT方法,Pass@1指标提升了8.6%,Pass@32指标提升了6.3%。这表明该方法能够有效提升LLM在复杂推理任务上的性能和可扩展性。此外,实验还验证了该方法在不同模型规模下的有效性,表明其具有良好的泛化能力。
🎯 应用场景
该研究成果可应用于需要复杂推理能力的各种场景,例如数学问题求解、代码生成、知识图谱推理等。通过提升LLM在复杂任务上的可扩展性,可以使其更好地服务于实际应用,例如智能客服、自动化报告生成、以及辅助科学研究等领域。未来,该方法有望进一步扩展到其他类型的推理任务,并与其他技术(如知识图谱、符号推理)相结合,以实现更强大的通用人工智能。
📄 摘要(原文)
Large language models (LLMs) have demonstrated strong reasoning capabilities through step-by-step chain-of-thought (CoT) reasoning. Nevertheless, at the limits of model capability, CoT often proves insufficient, and its strictly sequential nature constrains test-time scalability. A potential alternative is divide-and-conquer (DAC) reasoning, which decomposes a complex problem into subproblems to facilitate more effective exploration of the solution. Although promising, our analysis reveals a fundamental misalignment between general-purpose post-training and DAC-style inference, which limits the model's capacity to fully leverage this potential. To bridge this gap and fully unlock LLMs' reasoning capabilities on the most challenging tasks, we propose an end-to-end reinforcement learning (RL) framework to enhance their DAC-style reasoning capacity. At each step, the policy decomposes a problem into a group of subproblems, solves them sequentially, and addresses the original one conditioned on the subproblem solutions, with both decomposition and solution integrated into RL training. Under comparable training, our DAC-style framework endows the model with a higher performance ceiling and stronger test-time scalability, surpassing CoT by 8.6% in Pass@1 and 6.3% in Pass@32 on competition-level benchmarks.