How Chain-of-Thought Works? Tracing Information Flow from Decoding, Projection, and Activation

作者: Hao Yang, Qinghua Zhao, Lei Li

分类: cs.AI

发布日期: 2025-07-28

💡 一句话要点

通过追踪信息流，揭示思维链（CoT）提示的工作机制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链提示 可解释性 信息流追踪 神经元激活 解码空间剪枝

📋 核心要点

现有方法对思维链（CoT）提示的内部工作机制理解不足，阻碍了进一步优化。
该研究通过追踪信息流，揭示CoT作为解码空间剪枝器和神经元激活调节器的作用。
实验结果表明，CoT的模板遵循度与性能提升显著相关，并揭示了CoT在不同任务类型中的神经元激活模式。

📝 摘要（中文）

思维链（CoT）提示显著增强了模型的推理能力，但其内部机制仍不明确。本文通过逆向追踪解码、投影和激活阶段的信息流，分析了CoT的运行原理。定量分析表明，CoT可能充当了解码空间剪枝器的作用，利用答案模板来指导输出生成，且模板遵循度越高，性能提升越显著。此外，研究还发现CoT以任务依赖的方式调节神经元的参与度：在开放域任务中减少神经元激活，而在封闭域场景中增加神经元激活。这些发现提供了一种新的机制可解释性框架，并为实现有针对性的CoT干预以设计更高效和鲁棒的提示提供了关键见解。代码和数据已公开。

🔬 方法详解

问题定义：现有方法缺乏对思维链（CoT）提示内部机制的深入理解，无法解释CoT为何以及如何提升模型推理能力。这限制了我们设计更有效、更鲁棒的CoT提示，也难以针对特定任务进行优化。因此，需要深入探究CoT在模型内部的信息处理过程。

核心思路：该研究的核心思路是通过逆向追踪CoT提示在解码、投影和激活阶段的信息流动，来揭示其工作机制。具体来说，研究人员分析了CoT如何影响模型的输出生成过程，以及如何调节神经元的激活模式。通过量化分析这些影响，从而理解CoT的内在原理。

技术框架：该研究的技术框架主要包含三个阶段的分析：1) 解码阶段：分析CoT提示如何影响模型的解码空间，并量化CoT提示对答案模板的遵循程度。2) 投影阶段：研究CoT提示如何影响模型的表示空间，例如通过分析不同任务的表示向量之间的距离。3) 激活阶段：分析CoT提示如何调节神经元的激活模式，例如通过计算神经元的激活强度和激活数量。

关键创新：该研究的关键创新在于提出了一个基于信息流追踪的CoT机制可解释性框架。该框架能够量化CoT提示在不同阶段对模型行为的影响，从而揭示CoT的工作原理。此外，研究还发现CoT提示能够以任务依赖的方式调节神经元的激活模式，这为设计更高效的CoT提示提供了新的思路。

关键设计：研究中使用了多种量化分析方法，例如计算CoT提示生成的答案与预定义模板之间的相似度，以衡量模板遵循程度。此外，研究还使用了神经元激活分析技术，例如计算神经元的平均激活强度和激活数量，以研究CoT提示对神经元激活模式的影响。具体的参数设置和网络结构取决于所使用的预训练语言模型（例如，LLaMA）和下游任务。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

研究发现CoT提示的模板遵循度与模型性能显著正相关，表明CoT通过引导模型生成符合预定义模板的答案来提升推理能力。此外，CoT在开放域任务中降低神经元激活，而在封闭域任务中增加神经元激活，揭示了CoT以任务依赖的方式调节神经元的参与度。

🎯 应用场景

该研究成果可应用于提升大型语言模型的推理能力，尤其是在需要复杂推理步骤的任务中，例如数学问题求解、常识推理等。通过理解CoT的工作机制，可以设计更有效的提示策略，提高模型性能，并降低对大量训练数据的依赖。此外，该研究也有助于开发更可靠、更可解释的AI系统。

📄 摘要（原文）

Chain-of-Thought (CoT) prompting significantly enhances model reasoning, yet its internal mechanisms remain poorly understood. We analyze CoT's operational principles by reversely tracing information flow across decoding, projection, and activation phases. Our quantitative analysis suggests that CoT may serve as a decoding space pruner, leveraging answer templates to guide output generation, with higher template adherence strongly correlating with improved performance. Furthermore, we surprisingly find that CoT modulates neuron engagement in a task-dependent manner: reducing neuron activation in open-domain tasks, yet increasing it in closed-domain scenarios. These findings offer a novel mechanistic interpretability framework and critical insights for enabling targeted CoT interventions to design more efficient and robust prompts. We released our code and data at https://anonymous.4open.science/r/cot-D247.