Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
作者: Adly Templeton, Tom Conerly, Jonathan Marcus, Jack Lindsey, Trenton Bricken, Brian Chen, Adam Pearce, Craig Citro, Emmanuel Ameisen, Andy Jones, Hoagy Cunningham, Nicholas L Turner, Callum McDougall, Monte MacDiarmid, Alex Tamkin, Esin Durmus, Tristan Hume, Francesco Mosconi, C. Daniel Freeman, Theodore R. Sumers, Edward Rees, Joshua Batson, Adam Jermyn, Shan Carter, Chris Olah, Tom Henighan
分类: cs.AI
发布日期: 2026-05-28
💡 一句话要点
利用稀疏自编码器从Claude 3 Sonnet中提取可解释的单义特征
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 稀疏自编码器 可解释性 单义特征 语言模型 因果干预
📋 核心要点
- 现有方法难以从大型语言模型中提取可解释的特征,限制了对模型内部机制的理解和控制。
- 通过训练大规模稀疏自编码器,从语言模型的中间层提取单义特征,揭示模型内部的知识表示。
- 实验表明提取的特征具有多语言、多模态特性,能够用于引导模型行为,并识别潜在的有害特征。
📝 摘要(中文)
本文证明了稀疏自编码器能够从生产规模的语言模型Claude 3 Sonnet中提取可解释的特征,解决了字典学习方法是否能扩展到小型Transformer之外的开放性问题。作者在模型的中间层残差流上训练了具有高达3400万个特征的稀疏自编码器,并使用缩放定律来指导超参数的选择。所得到的特征是多语言和多模态的(推广到图像,尽管仅进行了文本训练),能够响应概念的具体实例和抽象讨论,并且可以用于以与其解释一致的方式来引导模型行为。作者发现了对应于著名实体和位置的特征,以及更抽象的概念,如讽刺或代码错误。此外,还识别了与语言模型可能造成的危害相关的特征,包括代表欺骗、权力寻觅、谄媚和偏见的特征,并表明这些特征在被操纵时会因果地影响模型输出。此外,还对特征的可解释性、几何形状和计算功能进行了分析。然而,仍然存在重大局限性:特征套件不完整,并且缺乏严格的方法来评估特征是否忠实地捕获了模型计算。
🔬 方法详解
问题定义:现有方法难以从大型语言模型中提取可解释的特征,这阻碍了我们理解和控制这些模型的行为。特别是,如何有效地从大型模型的内部表征中提取出具有明确语义含义的特征,是一个重要的挑战。现有的字典学习方法在小型Transformer上表现良好,但其在更大规模模型上的适用性仍不明确。
核心思路:本文的核心思路是利用稀疏自编码器,从大型语言模型的中间层残差流中学习单义特征。通过稀疏性约束,鼓励自编码器学习到少量具有明确语义含义的特征,从而提高特征的可解释性。这种方法旨在揭示模型内部的知识表示,并为控制模型行为提供一种手段。
技术框架:整体框架包括以下几个主要步骤:1) 选择目标语言模型(Claude 3 Sonnet)的中间层残差流作为输入;2) 训练大规模稀疏自编码器,其编码器将残差流映射到稀疏的特征表示,解码器将稀疏特征表示重构回残差流;3) 使用缩放定律来指导超参数的选择,以确保自编码器能够有效地学习到有意义的特征;4) 对学习到的特征进行分析,包括其语义含义、几何形状和计算功能。
关键创新:最重要的技术创新点在于成功地将稀疏自编码器扩展到生产规模的语言模型上,并提取出具有高度可解释性的单义特征。与现有方法相比,本文的方法能够处理更大规模的模型,并学习到更丰富的特征表示。此外,本文还提出了一种基于缩放定律的超参数选择方法,提高了训练效率和特征质量。
关键设计:关键的技术细节包括:1) 使用L1正则化来约束编码器的输出,鼓励稀疏性;2) 使用较大的特征维度(高达3400万)来捕捉模型内部的复杂知识;3) 使用缩放定律来调整学习率、批量大小和正则化系数等超参数;4) 通过人工分析、因果干预和几何分析等方法来评估特征的可解释性和功能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够从Claude 3 Sonnet中提取出具有高度可解释性的单义特征,包括对应于著名实体、抽象概念和潜在有害行为的特征。通过因果干预实验,证明了这些特征能够显著影响模型的输出。例如,操纵代表欺骗的特征会导致模型生成更具欺骗性的文本。
🎯 应用场景
该研究成果可应用于提高大型语言模型的可解释性和可控性,例如,通过识别和抑制有害特征来降低模型的偏见和欺骗行为。此外,该方法还可以用于知识发现,从模型内部提取有用的信息,并用于改进模型的训练和推理过程。未来,该技术有望应用于安全关键领域,例如自动驾驶和医疗诊断。
📄 摘要(原文)
We demonstrate that sparse autoencoders can extract interpretable features from Claude 3 Sonnet, a production-scale language model, addressing the open question of whether dictionary learning methods scale beyond small transformers. We trained sparse autoencoders with up to 34 million features on the model's middle layer residual stream, using scaling laws to guide hyperparameter selection. The resulting features are multilingual and multimodal (generalizing to images despite text-only training), respond to both concrete instances and abstract discussions of concepts, and can be used to steer model behavior in ways consistent with their interpretations. We find features corresponding to famous entities and locations, as well as more abstract concepts like sarcasm or errors in code. We also identify features relevant to ways in which language models might cause harm--including features representing deception, power-seeking, sycophancy, and bias--and show that these causally influence model outputs when manipulated. Additionally, we conduct analyses of feature interpretability, geometry, and computational function. However, significant limitations remain: our suite of features is incomplete, and we lack rigorous methods for evaluating whether our features faithfully capture model computations.