Demystifying Long Chain-of-Thought Reasoning in LLMs

作者: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue

分类: cs.CL, cs.LG

发布日期: 2025-02-05

备注: Preprint, under review

🔗 代码/项目: GITHUB

💡 一句话要点

探究LLM中长链思维推理的机制，揭示训练策略的关键因素。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长链思维 大型语言模型 强化学习 监督微调 奖励塑造 分布外泛化 推理能力

📋 核心要点

现有方法难以解释LLM中长链思维推理涌现的条件，且强化学习训练过程复杂，需要精细设计。
通过监督微调和强化学习实验，探究训练计算量、奖励信号和模型能力对长链思维推理的影响。
研究发现监督微调简化训练，奖励塑造稳定CoT长度，可验证奖励信号至关重要，纠错能力需大量计算。

📝 摘要（中文）

本文旨在揭示大型语言模型（LLM）中长链思维（CoT）推理的机制。通过扩展推理计算，LLM能够进行回溯和纠错等策略。强化学习（RL）已成为开发这些能力的关键方法，但长CoT出现的条件尚不明确，且RL训练需要谨慎的设计选择。本研究系统地研究了长CoT推理的机制，确定了使模型能够生成长CoT轨迹的关键因素。通过大量的监督微调（SFT）和RL实验，我们提出了四个主要发现：(1) 虽然SFT不是绝对必要的，但它简化了训练并提高了效率；(2) 推理能力往往随着训练计算量的增加而出现，但其发展并非必然，因此奖励塑造对于稳定CoT长度的增长至关重要；(3) 扩展可验证的奖励信号对于RL至关重要。我们发现，利用带有过滤机制的噪声网络提取解决方案显示出强大的潜力，尤其是在诸如STEM推理之类的分布外（OOD）任务中；(4) 诸如纠错之类的核心能力本质上存在于基础模型中，但是通过RL有效地激励这些技能以完成复杂的任务需要大量的计算，并且衡量它们的出现需要细致的方法。这些见解为优化训练策略以增强LLM中的长CoT推理提供了实践指导。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）中长链思维（CoT）推理能力涌现机制不明确的问题。现有方法缺乏对长CoT推理过程的系统性研究，难以解释为何以及如何通过训练提升LLM的推理能力，尤其是在分布外（OOD）任务中的表现。现有强化学习训练方法需要精细的设计，对奖励函数的设计和训练过程的稳定性提出了挑战。

核心思路：论文的核心思路是通过系统性的实验，解耦影响长CoT推理的关键因素，包括监督微调（SFT）、强化学习（RL）、训练计算量、奖励信号的质量和规模，以及模型本身固有的能力。通过控制变量，分析不同因素对CoT长度、推理准确性和OOD泛化能力的影响，从而揭示长CoT推理的内在机制。

技术框架：论文的技术框架主要包括以下几个阶段：1) 基于监督微调（SFT）的模型初始化，为后续的强化学习提供一个良好的起点。2) 使用不同的奖励函数进行强化学习训练，包括基于模型输出的奖励和基于外部知识的奖励。3) 对训练后的模型进行评估，包括在分布内和分布外任务上的推理准确率、CoT长度和纠错能力。4) 分析实验结果，识别影响长CoT推理的关键因素，并提出优化训练策略的建议。

关键创新：论文的关键创新在于：1) 系统性地研究了影响长CoT推理的多个因素，并揭示了它们之间的相互作用。2) 提出了利用噪声网络提取解决方案并进行过滤的方法，以扩展可验证的奖励信号，从而提升模型在OOD任务上的表现。3) 强调了奖励塑造在稳定CoT长度增长中的重要性，并提出了相应的训练策略。

关键设计：论文的关键设计包括：1) 使用不同的奖励函数，例如基于模型输出的奖励和基于外部知识的奖励，以探索不同奖励信号对CoT长度和推理准确率的影响。2) 设计了过滤机制，用于去除噪声网络提取解决方案中的错误答案，从而提高奖励信号的质量。3) 使用了不同的训练计算量，以研究训练计算量对推理能力的影响。4) 采用多种评估指标，包括推理准确率、CoT长度和纠错能力，以全面评估模型的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，监督微调可以简化训练并提高效率；奖励塑造对于稳定CoT长度的增长至关重要；利用带有过滤机制的噪声网络提取解决方案，可以显著提升模型在分布外任务（如STEM推理）上的表现。研究还发现，纠错能力存在于基础模型中，但需要大量的计算才能有效地激励这些能力。

🎯 应用场景

该研究成果可应用于提升大型语言模型在复杂推理任务中的表现，例如科学问题求解、逻辑推理和决策制定。通过优化训练策略，可以降低训练成本，提高模型在实际应用中的可靠性和泛化能力。该研究还有助于开发更智能的对话系统和智能助手。

📄 摘要（原文）

Scaling inference compute enhances reasoning in large language models (LLMs), with long chains-of-thought (CoTs) enabling strategies like backtracking and error correction. Reinforcement learning (RL) has emerged as a crucial method for developing these capabilities, yet the conditions under which long CoTs emerge remain unclear, and RL training requires careful design choices. In this study, we systematically investigate the mechanics of long CoT reasoning, identifying the key factors that enable models to generate long CoT trajectories. Through extensive supervised fine-tuning (SFT) and RL experiments, we present four main findings: (1) While SFT is not strictly necessary, it simplifies training and improves efficiency; (2) Reasoning capabilities tend to emerge with increased training compute, but their development is not guaranteed, making reward shaping crucial for stabilizing CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We find that leveraging noisy, web-extracted solutions with filtering mechanisms shows strong potential, particularly for out-of-distribution (OOD) tasks such as STEM reasoning; and (4) Core abilities like error correction are inherently present in base models, but incentivizing these skills effectively for complex tasks via RL demands significant compute, and measuring their emergence requires a nuanced approach. These insights provide practical guidance for optimizing training strategies to enhance long CoT reasoning in LLMs. Our code is available at: https://github.com/eddycmu/demystify-long-cot.

Demystifying Long Chain-of-Thought Reasoning in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理