Do Sparse Autoencoders Identify Reasoning Features in Language Models?

📄 arXiv: 2601.05679v1 📥 PDF

作者: George Ma, Zhongyuan Liang, Irene Y. Chen, Somayeh Sojoudi

分类: cs.LG

发布日期: 2026-01-09


💡 一句话要点

提出稀疏自编码器框架以识别语言模型中的推理特征

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏自编码器 语言模型 推理特征 对比学习 因果推断 模型可解释性

📋 核心要点

  1. 现有方法在识别大型语言模型中的推理特征时,面临特征激活与表面语言相关性混淆的问题。
  2. 论文提出了一种伪造导向的框架,通过因果标记注入实验和LLM引导的伪造方法来验证特征激活的真实性。
  3. 实验结果显示,59%至94%的特征激活依赖于词汇伪影,且未能找到符合真实推理行为的特征。

📝 摘要(中文)

本研究探讨稀疏自编码器(SAEs)是否能够识别大型语言模型(LLMs)中的真实推理特征。通过结合因果标记注入实验和LLM引导的伪造方法,我们测试了特征激活是否反映推理过程或表面语言相关性。研究发现,识别的推理特征对标记级干预高度敏感,注入少量特征相关标记即可引发59%至94%的特征强激活,表明其依赖于词汇伪影。对于未被简单标记触发解释的特征,LLM引导的伪造方法一致地产生激活特征的非推理输入和不激活特征的推理输入,且没有分析的特征符合真实推理行为的标准。这些结果表明,基于对比方法识别的SAE特征主要捕捉推理的语言相关性,而非推理计算本身。

🔬 方法详解

问题定义:本研究旨在解决稀疏自编码器在识别语言模型推理特征时的有效性问题,现有方法常常将特征激活与表面语言相关性混淆。

核心思路:通过引入因果标记注入实验和LLM引导的伪造方法,验证特征激活是否反映真实推理过程,旨在揭示特征的真实性质。

技术框架:整体框架包括特征选择、因果标记注入实验、LLM引导的伪造测试和结果分析四个主要模块。特征选择使用标准对比激活方法,后续通过注入特定标记进行干预。

关键创新:最重要的创新在于结合因果标记注入与LLM引导的伪造方法,系统性地验证特征激活的真实性,区别于传统方法仅依赖于激活强度的分析。

关键设计:在实验中,设置了多种模型配置和推理数据集,注入的标记数量和类型经过精心设计,以确保能够有效测试特征激活的真实性。

📊 实验亮点

实验结果显示,59%至94%的特征激活依赖于词汇伪影,表明这些特征并不反映真实的推理能力。此外,LLM引导的伪造方法一致地产生了激活特征的非推理输入,未能找到符合真实推理行为的特征,显示出当前方法的局限性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器学习模型的可解释性研究以及推理能力的评估。通过识别真实的推理特征,可以改进语言模型的设计,提高其在复杂任务中的表现,未来可能对智能助手、自动问答系统等领域产生深远影响。

📄 摘要(原文)

We investigate whether sparse autoencoders (SAEs) identify genuine reasoning features in large language models (LLMs). Starting from features selected using standard contrastive activation methods, we introduce a falsification-oriented framework that combines causal token injection experiments and LLM-guided falsification to test whether feature activation reflects reasoning processes or superficial linguistic correlates. Across 20 configurations spanning multiple model families, layers, and reasoning datasets, we find that identified reasoning features are highly sensitive to token-level interventions. Injecting a small number of feature-associated tokens into non-reasoning text is sufficient to elicit strong activation for 59% to 94% of features, indicating reliance on lexical artifacts. For the remaining features that are not explained by simple token triggers, LLM-guided falsification consistently produces non-reasoning inputs that activate the feature and reasoning inputs that do not, with no analyzed feature satisfying our criteria for genuine reasoning behavior. Steering these features yields minimal changes or slight degradations in benchmark performance. Together, these results suggest that SAE features identified by contrastive approaches primarily capture linguistic correlates of reasoning rather than the underlying reasoning computations themselves.