I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

作者: Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets

分类: cs.CL

发布日期: 2025-03-24 (更新: 2025-08-05)

🔗 代码/项目: GITHUB

💡 一句话要点

利用稀疏自编码器解析大型语言模型中的推理特征，揭示其内部推理机制。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理机制 稀疏自编码器 可解释性 ReasonScore

📋 核心要点

现有大型语言模型推理能力强大，但其内部推理机制尚不明确，如同一个黑盒。
该论文提出使用稀疏自编码器（SAEs）来分解模型激活，提取与推理相关的可解释特征，并设计ReasonScore指标自动识别关键特征。
实验表明，放大提取的推理特征可以提升模型在推理任务上的性能（+2.2%），并生成更长的推理过程（+20.5%）。

📝 摘要（中文）

最近的大型语言模型（LLMs），如DeepSeek-R1，通过在生成过程中整合深度思考和复杂推理，展现了最先进的性能。然而，这些推理过程背后的内部机制仍然未被探索。我们观察到，具有推理能力的LLM始终如一地使用与人类推理过程相关的词汇。我们假设这些词语对应于模型内部机制中的特定推理时刻。为了验证这一假设，我们采用了稀疏自编码器（SAEs），这是一种将神经网络激活稀疏分解为人类可解释特征的技术。我们引入了ReasonScore，一种自动指标，用于识别这些推理时刻中活跃的SAE特征。我们对该指标检测到的特征进行了手动和自动解释，发现其激活模式与不确定性、探索性思考和反思相匹配。通过steering实验，我们证明了放大这些特征可以提高推理密集型基准测试的性能（+2.2%），同时产生更长的推理轨迹（+20.5%）。使用模型差分技术，我们提供了证据表明这些特征仅存在于具有推理能力的模型中。我们的工作为理解LLM中的推理机制迈出了第一步。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）推理过程的黑盒问题，即缺乏对LLMs内部推理机制的理解。现有方法难以解释LLMs如何进行复杂推理，阻碍了对其能力边界的探索和潜在风险的控制。

核心思路：论文的核心思路是利用稀疏自编码器（SAEs）将LLMs的内部激活分解为稀疏且可解释的特征，这些特征被假设与特定的推理步骤或概念相关联。通过识别和分析这些特征，可以揭示LLMs进行推理的内部机制。这种方法类似于试图通过观察大脑活动来理解人类的思考过程。

技术框架：整体框架包括以下几个主要阶段：1) 使用SAEs训练：使用LLM的激活数据训练SAEs，使其能够将高维激活向量稀疏地表示为一组可解释的特征。2) ReasonScore计算：引入ReasonScore指标，用于自动识别在推理过程中活跃的SAE特征。该指标可能基于特征激活的频率、强度或与其他推理相关词汇的关联性。3) 特征解释：对ReasonScore较高的特征进行手动和自动解释，以确定其代表的推理概念或步骤。4) Steering实验：通过放大或抑制特定特征的激活，观察LLM在推理任务上的表现变化，从而验证特征的解释。5) 模型差分：比较具有和不具有推理能力的LLM，以确定特定特征是否与推理能力相关。

关键创新：该论文的关键创新在于：1) 将稀疏自编码器应用于LLMs的推理机制解释，提供了一种新的视角和工具。2) 提出了ReasonScore指标，实现了推理特征的自动识别。3) 通过steering实验和模型差分，验证了提取的特征与推理能力之间的关联性。

关键设计：SAEs的训练目标是最小化重构误差，同时鼓励稀疏性。ReasonScore的具体计算方法未知，但可能涉及到对特征激活频率、强度以及与推理相关词汇共现频率的加权。Steering实验中，如何选择放大或抑制的特征以及如何调整激活强度是关键设计参数。模型差分实验中，选择哪些具有和不具有推理能力的LLM进行比较，以及如何控制其他变量，也是重要的设计考虑。

🖼️ 关键图片

📊 实验亮点

该研究通过steering实验证明，放大与不确定性、探索性思考和反思相关的特征，可以提高模型在推理密集型基准测试上的性能（+2.2%），并产生更长的推理轨迹（+20.5%）。模型差分实验表明，这些特征仅存在于具有推理能力的模型中，进一步验证了其与推理能力的相关性。

🎯 应用场景

该研究成果可应用于提升大型语言模型的透明性和可控性，例如，通过理解模型的推理过程，可以更好地诊断和修复其潜在的偏见或错误。此外，该方法还可以用于开发更高效的推理算法，或设计更具解释性的AI系统。未来，或可用于教育领域，辅助理解人类认知过程。

📄 摘要（原文）

Recent LLMs like DeepSeek-R1 have demonstrated state-of-the-art performance by integrating deep thinking and complex reasoning during generation. However, the internal mechanisms behind these reasoning processes remain unexplored. We observe reasoning LLMs consistently use vocabulary associated with human reasoning processes. We hypothesize these words correspond to specific reasoning moments within the models' internal mechanisms. To test this hypothesis, we employ Sparse Autoencoders (SAEs), a technique for sparse decomposition of neural network activations into human-interpretable features. We introduce ReasonScore, an automatic metric to identify active SAE features during these reasoning moments. We perform manual and automatic interpretation of the features detected by our metric, and find those with activation patterns matching uncertainty, exploratory thinking, and reflection. Through steering experiments, we demonstrate that amplifying these features increases performance on reasoning-intensive benchmarks (+2.2%) while producing longer reasoning traces (+20.5%). Using the model diffing technique, we provide evidence that these features are present only in models with reasoning capabilities. Our work provides the first step towards a mechanistic understanding of reasoning in LLMs. Code available at https://github.com/AIRI-Institute/SAE-Reasoning

I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理