Reasoning Models Don't Just Think Longer, They Move Differently

📄 arXiv: 2605.15454v1 📥 PDF

作者: Anders Gjølbye, Lars Kai Hansen, Sanmi Koyejo

分类: cs.CL, cs.LG, stat.ML

发布日期: 2026-05-14

备注: Preprint


💡 一句话要点

通过轨迹几何分析,揭示推理模型在不同难度问题上的行为差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 推理能力 轨迹分析 几何学 思考链

📋 核心要点

  1. 现有方法难以区分模型在解决难题时是简单地增加计算步骤,还是采用了不同的推理路径。
  2. 该研究通过分析模型在生成思考链时的隐藏状态轨迹,揭示了模型内部推理过程的差异。
  3. 实验表明,校正轨迹长度后,问题难度与轨迹几何形状存在关联,尤其在代码领域表现明显。

📝 摘要(中文)

经过推理训练的语言模型通常在较难的问题上花费更多的token,但更长的思考链条并不能表明模型仅仅是计算了更多步骤,还是遵循了不同的内部轨迹。本文通过研究竞争性编程、数学和布尔可满足性问题中,思考链生成期间的隐藏状态轨迹来研究这种区别。原始轨迹几何形状受到生成长度的强烈影响:更长的生成过程会机械地改变路径统计信息,因此未经调整的难度依赖性比较具有误导性。在对长度进行残差化处理后,难度仍然与所有研究领域中校正后的轨迹几何形状系统地耦合。最清晰的推理特定分离出现在代码领域,其中较难的问题在推理训练模型中显示出更直接的校正轨迹和更少异构的局部曲率,而匹配的指令调整基线则不然。校正后的难度-几何耦合在数学和布尔可满足性问题中较弱,但仍然存在。提示阶段的线性探针不能反映代码领域的分离,行为注释表明,更强的校正耦合与策略转变和不确定性监控同时发生。总之,这些发现确立了长度校正作为生成时间轨迹分析的先决条件,并表明推理训练可能与不同的校正轨迹几何形状相关联,其效果强度取决于领域。

🔬 方法详解

问题定义:现有方法无法有效区分语言模型在处理不同难度问题时,增加计算步骤和改变推理路径这两种行为。简单地观察token数量无法揭示模型内部推理过程的本质差异,这阻碍了我们深入理解模型的推理机制。

核心思路:该论文的核心思路是通过分析语言模型在生成思考链时的隐藏状态轨迹,来研究模型在解决不同难度问题时的行为差异。通过几何学方法分析轨迹的形状和特征,可以更细粒度地理解模型的推理过程。

技术框架:该研究的技术框架主要包含以下几个步骤:1) 选择三个领域的问题:竞争性编程、数学和布尔可满足性问题。2) 使用语言模型生成思考链。3) 提取生成过程中的隐藏状态轨迹。4) 对轨迹进行长度校正,消除生成长度对轨迹几何形状的影响。5) 分析校正后的轨迹几何形状与问题难度之间的关系。6) 使用线性探针和行为注释来进一步验证分析结果。

关键创新:该研究的关键创新在于提出了长度校正的概念,并将其应用于轨迹几何分析。通过消除生成长度对轨迹的影响,可以更准确地评估问题难度与轨迹几何形状之间的关系。此外,该研究还发现,在代码领域,推理训练模型在解决难题时表现出更直接的校正轨迹和更少异构的局部曲率,这表明推理训练可以改变模型的推理路径。

关键设计:该研究的关键设计包括:1) 使用残差化方法对轨迹长度进行校正。2) 使用各种几何学指标来描述轨迹的形状和特征,例如轨迹的直接性、局部曲率等。3) 使用线性探针来分析提示阶段的信息。4) 使用行为注释来验证分析结果,例如策略转变和不确定性监控。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在代码领域,推理训练模型在解决难题时表现出更直接的校正轨迹和更少异构的局部曲率,而匹配的指令调整基线则不然。校正后的难度-几何耦合在数学和布尔可满足性问题中较弱,但仍然存在。这些结果表明,推理训练可以改变模型的推理路径,并且这种改变与问题难度相关。

🎯 应用场景

该研究成果可应用于提升语言模型的推理能力和可解释性。通过分析模型的推理轨迹,可以更好地理解模型的推理过程,并针对性地进行优化。此外,该研究还可以用于评估不同推理训练方法的效果,并指导模型的设计和训练。

📄 摘要(原文)

Reasoning-trained language models often spend more tokens on harder problems, but longer chains of thought do not show whether a model is merely computing for more steps or following a different internal trajectory. We study this distinction through hidden-state trajectories during chain-of-thought generation across competitive programming, mathematics, and Boolean satisfiability. Raw trajectory geometry is strongly shaped by generation length: longer generations mechanically alter path statistics, so difficulty-dependent comparisons are misleading without adjustment. After residualizing trajectory statistics on length, difficulty remains systematically coupled to corrected trajectory geometry across all domains studied. The clearest reasoning-specific separation appears in the code domain, where harder problems show more direct corrected trajectories and less heterogeneous local curvature in reasoning-trained models than in matched instruction-tuned baselines. Corrected difficulty-geometry coupling is weaker, but still present, in mathematics and Boolean satisfiability. Prompt-stage linear probes do not mirror the code-domain separation, and behavioral annotations show that stronger corrected coupling co-occurs with strategy shifts and uncertainty monitoring. Together, these findings establish length correction as a prerequisite for generation-time trajectory analysis and show that reasoning training can be associated with distinct corrected trajectory geometry, with the strength of the effect depending on the domain.