How does Chain of Thought Think? Mechanistic Interpretability of Chain-of-Thought Reasoning with Sparse Autoencoding

作者: Xi Chen, Aske Plaat, Niki van Stein

分类: cs.CL, cs.AI

发布日期: 2025-07-24

💡 一句话要点

通过稀疏自编码器，研究思维链（CoT）推理的机制可解释性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 可解释性 稀疏自编码器 激活修补 大型语言模型

📋 核心要点

现有方法难以确定思维链（CoT）提示生成的“想法”是否真实反映了LLM的内部推理过程。
本文提出使用稀疏自编码器提取单义特征，并通过激活修补方法研究CoT推理特征对模型行为的影响。
实验表明，CoT推理特征对较大模型（Pythia-2.8B）有显著影响，提高了答案对数概率和特征可解释性。

📝 摘要（中文）

思维链（CoT）提示可以提高大型语言模型在多步骤任务上的准确性，但生成的“想法”是否反映了真实的内部推理过程尚不明确。本文首次对CoT的忠实性进行了特征级别的因果研究。通过将稀疏自编码器与激活修补相结合，从Pythia-70M和Pythia-2.8B中提取单义特征，同时让它们在CoT和普通（noCoT）提示下解决GSM8K数学问题。将少量CoT推理特征交换到noCoT运行中，显著提高了2.8B模型中的答案对数概率，但在70M模型中没有可靠的影响，揭示了一个清晰的规模阈值。CoT还导致较大模型中显著更高的激活稀疏性和特征可解释性得分，表明更模块化的内部计算。例如，模型对生成正确答案的信心从1.2提高到4.3。本文引入了patch-curves和随机特征修补基线，表明有用的CoT信息不仅存在于top-K patches中，而且广泛分布。总的来说，结果表明CoT可以在高容量LLM中诱导出更可解释的内部结构，验证了其作为结构化提示方法的作用。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）中使用思维链（CoT）提示时，生成的中间“想法”是否真实反映了模型内部推理过程的问题。现有方法缺乏对CoT忠实性的细粒度因果分析，难以验证CoT是否真的引导模型进行更有效的推理，还是仅仅提供了一种表面上的解释。

核心思路：论文的核心思路是通过提取LLM内部的单义特征，并分析这些特征在CoT和非CoT（noCoT）情景下的激活情况，来研究CoT对模型推理过程的影响。通过激活修补技术，将CoT情景下的特征激活注入到noCoT情景中，观察模型行为的变化，从而推断CoT特征在模型推理中的作用。

技术框架：整体框架包括以下几个主要阶段：1) 使用Pythia-70M和Pythia-2.8B模型在GSM8K数据集上进行CoT和noCoT推理；2) 使用稀疏自编码器从模型的激活中提取单义特征；3) 使用激活修补技术，将CoT情景下的特征激活注入到noCoT情景中；4) 分析模型在注入CoT特征后的行为变化，例如答案对数概率、激活稀疏性和特征可解释性。

关键创新：论文最重要的技术创新点在于首次将稀疏自编码器与激活修补技术结合，用于对CoT推理进行特征级别的因果分析。这种方法能够提取LLM内部的单义特征，并量化这些特征对模型行为的影响，从而更深入地理解CoT的机制。此外，论文还引入了patch-curves和随机特征修补基线，用于评估CoT信息的分布情况。

关键设计：论文的关键设计包括：1) 使用L1正则化的稀疏自编码器来提取单义特征，鼓励特征的稀疏性；2) 使用激活修补技术，将CoT情景下的top-K个激活值注入到noCoT情景中，并观察模型行为的变化；3) 使用答案对数概率作为评估指标，衡量CoT特征对模型推理的影响；4) 使用激活稀疏性和特征可解释性得分来评估CoT是否诱导了更模块化的内部计算。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

实验结果表明，将CoT推理特征注入到Pythia-2.8B的noCoT运行中，显著提高了答案对数概率，但在Pythia-70M中没有显著影响，揭示了规模效应。CoT还导致较大模型中显著更高的激活稀疏性和特征可解释性得分。例如，模型对生成正确答案的信心从1.2提高到4.3。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可解释性和可靠性。通过理解CoT的内部机制，可以设计更有效的提示策略，引导模型进行更准确、更可信的推理。此外，该方法还可以用于诊断和修复LLM中的推理错误，提高模型在实际应用中的性能。

📄 摘要（原文）

Chain-of-thought (CoT) prompting boosts Large Language Models accuracy on multi-step tasks, yet whether the generated "thoughts" reflect the true internal reasoning process is unresolved. We present the first feature-level causal study of CoT faithfulness. Combining sparse autoencoders with activation patching, we extract monosemantic features from Pythia-70M and Pythia-2.8B while they tackle GSM8K math problems under CoT and plain (noCoT) prompting. Swapping a small set of CoT-reasoning features into a noCoT run raises answer log-probabilities significantly in the 2.8B model, but has no reliable effect in 70M, revealing a clear scale threshold. CoT also leads to significantly higher activation sparsity and feature interpretability scores in the larger model, signalling more modular internal computation. For example, the model's confidence in generating correct answers improves from 1.2 to 4.3. We introduce patch-curves and random-feature patching baselines, showing that useful CoT information is not only present in the top-K patches but widely distributed. Overall, our results indicate that CoT can induce more interpretable internal structures in high-capacity LLMs, validating its role as a structured prompting method.