What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective

📄 arXiv: 2410.23743v2 📥 PDF

作者: Ming Li, Yanhong Li, Tianyi Zhou

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-10-31 (更新: 2025-06-05)

备注: ACL2025 main, Camera-ready

🔗 代码/项目: GITHUB


💡 一句话要点

通过梯度分析揭示LLM快慢思考训练中层级差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 快慢思考 梯度分析 思维链 模型训练

📋 核心要点

  1. 现有LLM训练方法在快慢思考模式下,各层梯度变化规律尚不明确,影响训练效率和稳定性。
  2. 通过分析不同思考模式下LLM各层梯度差异,揭示快慢思考对学习稳定性的影响。
  3. 实验表明慢思考梯度能区分正确推理路径,为提升LLM推理能力提供新思路。

📝 摘要(中文)

本文通过梯度视角研究了大型语言模型(LLM)后训练中不同层级的训练模式差异。特别关注了快思考与慢思考如何影响层级梯度,鉴于目前使用思维链(CoT)和过程奖励训练LLM的流行趋势。研究表明,不使用CoT的快思考比详细CoT的慢思考导致更大的梯度和更大的层间梯度差异,表明后者带来了学习稳定性。此外,研究了梯度模式是否能反映使用慢速与快速思考路径训练不同LLM时响应的正确性。结果表明,慢思考的梯度可以区分正确和不相关的推理路径。作为比较,对非推理知识学习任务进行了类似的梯度分析,然而,简单地增加响应长度并不会导致慢思考的类似行为。本研究加强了对LLM训练的基本理解,并对其效率和稳定性提供了新的见解,为构建可泛化的System-2智能体铺平了道路。代码、数据和梯度统计信息可在GitHub上找到。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在接受快思考(直接给出答案)和慢思考(使用思维链CoT)训练时,模型内部不同层级的梯度变化模式有何差异。现有方法缺乏对这种差异的深入理解,导致在训练LLM时,难以有效平衡训练效率和模型推理的正确性,尤其是在需要复杂推理的任务中。

核心思路:论文的核心思路是通过分析LLM在不同训练模式下的梯度变化,来理解快慢思考对模型学习过程的影响。梯度可以反映模型在学习过程中参数更新的幅度,而不同层级的梯度差异则可以揭示模型不同部分对学习任务的贡献程度。通过比较快慢思考模式下的梯度差异,可以了解哪种模式更有利于模型的稳定学习和正确推理。

技术框架:论文的技术框架主要包括以下几个步骤:1) 使用不同的LLM架构(具体架构未知)进行实验;2) 分别使用快思考和慢思考两种方式训练LLM;3) 在训练过程中,记录LLM每一层的梯度信息;4) 对比分析不同训练模式下,各层梯度的差异,包括梯度的大小、层间梯度差异等;5) 分析梯度模式与模型输出正确性的相关性。

关键创新:论文的关键创新在于将梯度分析方法应用于理解LLM的快慢思考训练过程。通过梯度分析,揭示了快慢思考对LLM学习稳定性和推理能力的影响。此外,论文还发现慢思考的梯度可以区分正确和不相关的推理路径,这为设计更有效的LLM训练方法提供了新的思路。

关键设计:论文的关键设计包括:1) 针对快慢思考设计不同的训练数据集,其中慢思考数据包含详细的思维链;2) 使用合适的梯度计算方法,确保能够准确反映模型在学习过程中的参数更新情况;3) 设计合理的实验方案,对比分析不同训练模式下的梯度差异,并评估梯度模式与模型输出正确性的相关性。具体的参数设置、损失函数、网络结构等技术细节未知。

📊 实验亮点

研究发现,不使用CoT的快思考比详细CoT的慢思考导致更大的梯度和更大的层间梯度差异,表明慢思考带来了学习稳定性。更重要的是,慢思考的梯度可以区分正确和不相关的推理路径,这为提升LLM推理能力提供了新的途径。在非推理知识学习任务中,简单增加响应长度并不会产生类似慢思考的行为。

🎯 应用场景

该研究成果可应用于提升大型语言模型的训练效率和推理能力,尤其是在需要复杂推理的任务中。通过理解快慢思考对模型学习过程的影响,可以设计更有效的训练策略,例如,根据任务的复杂程度,动态调整快慢思考的比例。此外,该研究还可以为构建更强大的System-2智能体提供理论基础。

📄 摘要(原文)

What makes a difference in the post-training of LLMs? We investigate the training patterns of different layers in large language models (LLMs) through the lens of the gradient. We are specifically interested in how fast vs. slow thinking affects the layer-wise gradients, given the recent popularity of training LLMs on reasoning paths such as chain-of-thoughts (CoT) and process rewards. In our study, fast thinking without CoT leads to larger gradients and larger differences of gradients across layers than slow thinking (Detailed CoT), indicating the learning stability brought by the latter. Additionally, we study whether the gradient patterns can reflect the correctness of responses when training different LLMs using slow vs. fast thinking paths. The results show that the gradients of slow thinking can distinguish correct and irrelevant reasoning paths. As a comparison, we conduct similar gradient analyses on non-reasoning knowledge learning tasks, on which, however, trivially increasing the response length does not lead to similar behaviors of slow thinking. Our study strengthens fundamental understandings of LLM training and sheds novel insights on its efficiency and stability, which pave the way towards building a generalizable System-2 agent. Our code, data, and gradient statistics can be found in: https://github.com/MingLiiii/Layer_Gradient.