Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training
作者: Yein Park, Minbyul Jeong, Jaewoo Kang
分类: cs.AI
发布日期: 2025-09-30
💡 一句话要点
揭示推理模型后训练中涌现的注意力头:结构化推理与计算的关键
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 注意力机制 后训练 电路分析 推理模型 模型蒸馏 监督微调 强化学习 涌现现象
📋 核心要点
- 现有大型推理模型缺乏对其后训练改进背后架构机制的深入理解。
- 通过电路分析,发现后训练激发了新型注意力头的涌现,这些头支持结构化推理。
- 研究揭示了不同训练机制下注意力头的演化差异,以及复杂推理与基本计算之间的权衡。
📝 摘要(中文)
现代大型推理模型的能力主要通过监督微调和强化学习等后训练技术解锁。然而,这些改进背后的架构机制仍然很大程度上不透明。本文利用电路分析表明,针对复杂推理的后训练会激发新型、功能专用的注意力头的涌现。这些注意力头共同支持结构化推理和计算。通过对Qwen系列和DeepSeek-distilled模型的比较分析,揭示了这些涌现的注意力头在不同训练机制下以不同的方式演化。蒸馏和SFT促进了稳定推理头的累积增加。相比之下,群体相对策略优化以动态搜索模式运行:相对较少的注意力头被迭代地激活、评估和修剪,它们的存活与任务奖励信号的波动密切相关。此外,我们发现可控的think on/off模型不具备专用的思考头。相反,关闭显式推理会触发更广泛但效率较低的补偿头集合。通过消融和定性分析,我们将这些电路级动态与一个关键的性能权衡联系起来:强化的头能够为难题提供复杂的解决策略,但也可能引入过度思考的失败模式,例如简单任务上的计算错误或逻辑循环。这些发现将电路级动态与宏观性能联系起来,识别出一种固有的张力,即复杂推理的代价是基本计算。更广泛地说,我们的工作为训练策略设计指明了未来的方向,强调需要平衡有效推理策略的开发与可靠、完美执行的保证。
🔬 方法详解
问题定义:现有的大型推理模型虽然在各种任务上表现出色,但对其内部工作机制,特别是后训练(如监督微调和强化学习)如何影响模型的推理能力,仍然缺乏深入的理解。现有方法难以解释模型性能提升背后的原因,以及不同训练策略对模型内部结构的影响。
核心思路:本文的核心思路是通过电路分析的方法,研究模型在后训练过程中注意力头的变化。通过分析注意力头的激活模式、连接关系以及对模型性能的影响,揭示后训练如何塑造模型的推理能力。重点关注新型、功能专用的注意力头的涌现,以及它们在结构化推理和计算中的作用。
技术框架:本文采用电路分析方法,对不同训练机制下(如监督微调、强化学习、蒸馏)的Qwen系列和DeepSeek-distilled模型进行分析。主要包括以下几个阶段:1) 识别涌现的注意力头;2) 分析这些头的激活模式和连接关系;3) 通过消融实验评估这些头对模型性能的影响;4) 定性分析这些头在不同任务中的行为。
关键创新:本文最重要的创新在于揭示了后训练过程中注意力头的涌现现象,并将其与模型的推理能力联系起来。通过比较不同训练机制下的注意力头演化过程,发现蒸馏和SFT促进了稳定推理头的累积增加,而群体相对策略优化则采用动态搜索模式。此外,还发现了复杂推理与基本计算之间的权衡关系,即强化的头虽然能够解决难题,但也可能导致简单任务上的过度思考。
关键设计:本文的关键设计包括:1) 使用电路分析技术来追踪和分析注意力头的行为;2) 设计消融实验来评估特定注意力头对模型性能的影响;3) 采用多种训练机制和模型架构进行对比分析,以验证研究结果的普适性;4) 通过定性分析,深入理解注意力头在不同任务中的作用。
🖼️ 关键图片
📊 实验亮点
研究发现,蒸馏和SFT训练方式倾向于累积增加稳定的推理头,而群体相对策略优化则采用动态搜索模式,迭代激活、评估和修剪注意力头。此外,研究还揭示了复杂推理与基本计算之间的权衡,即更强的推理能力可能导致简单任务上的过度思考和错误。这些发现为理解和改进大型语言模型的训练策略提供了新的视角。
🎯 应用场景
该研究成果可应用于改进大型语言模型的训练策略,例如,通过有针对性地训练特定类型的注意力头,可以提高模型的推理能力和鲁棒性。此外,该研究还可以帮助我们更好地理解模型的内部工作机制,从而为模型的可解释性和安全性提供保障。未来的研究可以探索如何设计更有效的训练方法,以平衡复杂推理和基本计算之间的权衡,从而构建更强大、更可靠的AI系统。
📄 摘要(原文)
The remarkable capabilities of modern large reasoning models are largely unlocked through post-training techniques such as supervised fine-tuning and reinforcement learning. However, the architectural mechanisms behind such improvements remain largely opaque. In this work, we use circuit analysis to demonstrate that post-training for complex reasoning sparks the emergence of novel, functionally specialized attention heads. These heads collectively support structured reasoning and computation. Our comparative analysis across Qwen families and DeepSeek-distilled model reveals that these emergent heads evolve differently under different training regimes. Distillation and SFT foster a cumulative addition of stable reasoning heads. In contrast, group relative policy optimization operates in a dynamic search mode: relatively few attention heads are iteratively activated, evaluated, and pruned, with their survival closely tracking fluctuations in the task reward signal. Furthermore, we find that controllable think on/off models do not possess dedicated thinking heads. Instead, turning off explicit reasoning triggers a broader-but less efficient-set of compensatory heads. Through ablation and qualitative analyses, we connect these circuit-level dynamics to a crucial performance trade-off: strengthened heads enable sophisticated problem-solving strategies for difficult problems but can also introduce over-thinking failure modes, such as calculation errors or logical loops on simpler tasks. These findings connect circuit-level dynamics to macro-level performance, identifying an inherent tension where complex reasoning comes at the cost of elementary computations. More broadly, our work points to future directions for training policy design, emphasizing the need to balance the development of effective reasoning strategies with the assurance of reliable, flawless execution.