Can Aha Moments Be Fake? Identifying True and Decorative Thinking Steps in Chain-of-Thought

📄 arXiv: 2510.24941v2 📥 PDF

作者: Jiachen Zhao, Yiyou Sun, Weiyan Shi, Dawn Song

分类: cs.LG

发布日期: 2025-10-28 (更新: 2026-01-30)


💡 一句话要点

提出True Thinking Score以识别CoT中真实推理步骤与装饰性步骤

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 链式思考 因果推理 可解释性 大型语言模型 真实思考 装饰性思考 True Thinking Score

📋 核心要点

  1. 现有CoT方法难以区分模型内部真实推理与仅为表面现象的装饰性步骤,影响了对LLM推理过程的理解。
  2. 提出True Thinking Score (TTS) 来量化CoT中每个步骤对最终预测的因果贡献,从而区分真实与装饰性步骤。
  3. 实验表明LLM的CoT中仅有少量步骤真正驱动预测,且可利用TrueThinking方向引导模型内部推理。

📝 摘要(中文)

大型语言模型(LLMs)可以生成长链式思考(CoT)推理,但这些步骤是否反映了模型内部的真实思考过程尚不清楚。本文提出了True Thinking Score(TTS)来量化CoT中每个步骤对模型最终预测的因果贡献。实验表明,LLMs经常在真实思考步骤(真正用于计算最终输出的步骤)和装饰性思考步骤(表面上看起来像推理,但因果影响极小)之间交替。研究发现,只有一小部分推理步骤真正驱动了模型的预测。例如,在AIME数据集上,对于Qwen-2.5模型,平均只有2.3%的CoT推理步骤的TTS大于等于0.7(范围:0-1)。此外,研究表明,可以使用识别出的TrueThinking方向来引导LLMs在内部遵循或忽略CoT中的特定步骤。CoT中的自我验证步骤(即顿悟时刻)可能是装饰性的,而沿着TrueThinking方向引导可以强制模型对这些步骤进行内部推理。总而言之,这项工作揭示了LLMs经常在没有真正执行内部推理的情况下,将推理步骤表达出来,这挑战了LLM推理的效率和CoT的可信度。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)生成的链式思考(CoT)推理中,难以区分哪些步骤是模型真正用于计算最终结果的“真实思考”步骤,哪些仅仅是为了看起来像推理而存在的“装饰性思考”步骤的问题。现有方法无法准确评估每个CoT步骤的因果贡献,导致对LLM推理过程的理解存在偏差。

核心思路:论文的核心思路是通过量化每个CoT步骤对最终预测结果的因果贡献来区分真实思考步骤和装饰性思考步骤。如果一个步骤的改变显著影响了最终预测,则认为该步骤是真实思考步骤;反之,如果一个步骤的改变对最终预测影响很小,则认为是装饰性思考步骤。这种方法试图揭示LLM内部真实的推理路径,而不仅仅是依赖于表面上的文字描述。

技术框架:论文提出了True Thinking Score (TTS) 的计算框架。该框架主要包含以下几个阶段: 1. CoT生成:使用LLM生成CoT推理过程。 2. 步骤扰动:对CoT中的每个步骤进行扰动,例如删除或替换。 3. 预测评估:评估扰动后的CoT对最终预测结果的影响。 4. TTS计算:基于扰动前后预测结果的变化,计算每个步骤的TTS。TTS越高,表示该步骤对最终预测的因果贡献越大。

关键创新:论文最重要的技术创新点是提出了True Thinking Score (TTS),这是一种量化CoT中每个步骤因果贡献的指标。与现有方法不同,TTS不仅仅关注CoT步骤的表面内容,而是通过扰动实验来评估其对最终预测的实际影响。这种方法能够更准确地识别LLM内部真实的推理路径,从而揭示LLM推理的效率和可信度问题。

关键设计:TTS的具体计算方法未知,论文中可能使用了某种因果推断或敏感性分析的技术来量化每个步骤的因果贡献。具体扰动方式(例如删除、替换的具体策略)以及预测评估指标(例如准确率、F1值)也需要根据具体任务进行设计。此外,如何选择合适的LLM以及如何设计有效的CoT提示词也会影响TTS的计算结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM的CoT中只有极少部分步骤对最终预测有显著影响。例如,在AIME数据集上,Qwen-2.5模型平均只有2.3%的推理步骤的TTS大于等于0.7。此外,研究还发现,可以通过引导TrueThinking方向来影响LLM的内部推理过程,从而验证或纠正CoT中的特定步骤。

🎯 应用场景

该研究成果可应用于提升LLM推理的效率和可信度。通过识别并去除CoT中的装饰性步骤,可以减少计算开销,提高推理速度。此外,理解LLM的真实推理路径有助于开发更可靠的LLM应用,例如在医疗诊断、金融分析等关键领域。

📄 摘要(原文)

Large language models can generate long chain-of-thought (CoT) reasoning, but it remains unclear whether the verbalized steps reflect the models' internal thinking. In this work, we propose a True Thinking Score (TTS) to quantify the causal contribution of each step in CoT to the model's final prediction. Our experiments show that LLMs often interleave between true-thinking steps (which are genuinely used to compute the final output) and decorative-thinking steps (which give the appearance of reasoning but have minimal causal influence). We reveal that only a small subset of the total reasoning steps causally drive the model's prediction: e.g., on AIME, only an average of 2.3% of reasoning steps in CoT have a TTS >= 0.7 (range: 0-1) for Qwen-2.5. Furthermore, we find that LLMs can be steered to internally follow or disregard specific steps in their verbalized CoT using the identified TrueThinking direction. We highlight that self-verification steps in CoT (i.e., aha moments) can be decorative, while steering along the TrueThinking direction can force internal reasoning over these steps. Overall, our work reveals that LLMs often verbalize reasoning steps without performing them internally, challenging the efficiency of LLM reasoning and the trustworthiness of CoT.