Therefore I am. I Think

📄 arXiv: 2604.01202 📥 PDF

作者: Esakkivel Esakkiraja, Sai Rajeswar, Denis Akhiyarov, Rajagopal Venkatesaramani

分类: cs.AI

发布日期: 2026-04-06


💡 一句话要点

研究表明大型语言模型在推理前已初步决定,推理过程可能服务于决策

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 思维链 决策过程 激活steering 因果推理

📋 核心要点

  1. 现有研究对大型语言模型(LLM)的决策过程理解不足,特别是决策与推理之间的时序关系。
  2. 该研究通过线性探针和激活steering等技术,揭示了LLM可能在推理前就已做出决策。
  3. 实验表明,早期决策会影响后续的思维链生成,甚至可以通过干预早期激活来改变最终决策。

📝 摘要(中文)

本文探讨了一个问题:当大型语言推理模型做出选择时,是先思考再决定,还是先决定再思考?我们提供的证据表明,可检测到的、早期编码的决策会影响推理模型中的思维链(chain-of-thought)。具体来说,我们展示了一个简单的线性探针可以非常高的置信度从预生成激活中解码工具调用决策,在某些情况下,甚至在生成单个推理token之前。激活steering从因果上支持了这一点:扰动决策方向会导致过度的思考,并在许多示例中翻转行为(根据模型和基准,在7%到79%之间)。我们还通过行为分析表明,当steering改变决策时,思维链过程通常会合理化这种翻转,而不是抵制它。总之,这些结果表明,推理模型可以在开始以文本形式进行推理之前,对行动选择进行编码。

🔬 方法详解

问题定义:论文旨在探究大型语言模型在进行推理和决策时,是先思考(生成思维链)再做出决定,还是先做出决定再通过思维链来合理化这个决定。现有方法难以确定决策和推理之间的因果关系和时间顺序,无法深入理解LLM的决策机制。

核心思路:论文的核心思路是通过分析LLM在生成思维链之前的内部激活状态,来预测其最终的决策。如果能够从早期激活中准确预测决策,则表明决策可能在推理之前就已经形成。此外,通过激活steering技术,人为干预早期激活,观察对后续思维链和最终决策的影响,从而验证决策对推理的因果关系。

技术框架:整体研究框架包括三个主要步骤:1) 决策预测:使用线性探针从LLM的预生成激活中解码工具调用决策。2) 因果干预:使用激活steering技术,扰动早期激活的决策方向。3) 行为分析:分析steering对思维链和最终决策的影响,观察模型是否会合理化被改变的决策。

关键创新:该研究的关键创新在于:1) 提出了通过分析预生成激活来研究LLM决策过程的方法,避免了直接观察文本输出的局限性。2) 使用激活steering技术,实现了对LLM内部决策过程的因果干预,从而验证了决策对推理的影响。3) 揭示了LLM可能存在“先决定后思考”的决策模式,颠覆了传统的认知。

关键设计:1) 线性探针:使用简单的线性模型来预测决策,降低了模型复杂度,提高了可解释性。2) 激活steering:通过计算决策方向向量,并将其添加到早期激活中,实现了对决策的干预。3) 行为分析:通过人工分析steering前后思维链的变化,判断模型是否在合理化被改变的决策。具体参数设置和损失函数细节在论文中未明确说明,可能使用了默认或标准配置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,简单的线性探针可以从预生成激活中以非常高的置信度解码工具调用决策,甚至在生成单个推理token之前。激活steering实验表明,扰动决策方向会导致7%到79%的示例发生行为翻转,表明早期决策对最终结果具有显著影响。行为分析显示,当steering改变决策时,思维链过程倾向于合理化这种改变。

🎯 应用场景

该研究成果可应用于提升大型语言模型的决策可控性和可靠性。通过理解和干预模型的早期决策过程,可以避免模型做出不合理的决策,并提高其在复杂任务中的表现。此外,该研究也有助于开发更安全、更可信赖的人工智能系统。

📄 摘要(原文)

We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.