Scaling sparse feature circuit finding for in-context learning
作者: Dmitrii Kharlapenko, Stepan Shabalin, Fazl Barez, Arthur Conmy, Neel Nanda
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-04-18
💡 一句话要点
利用稀疏自编码器,扩展稀疏特征电路发现方法,解析上下文学习机制。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 上下文学习 稀疏自编码器 可解释性 特征电路 因果关系 大型语言模型 Gemma-1 2B
📋 核心要点
- 现有方法难以有效解释大型语言模型中的上下文学习(ICL)机制,SAE的应用潜力未被充分挖掘。
- 利用稀疏自编码器(SAE)提取模型中的抽象特征,并构建稀疏特征电路,以理解ICL背后的机制。
- 成功将稀疏特征电路方法扩展到更大规模的模型(Gemma-1 2B)和更复杂的ICL任务,揭示了任务检测和执行特征之间的因果关系。
📝 摘要(中文)
稀疏自编码器(SAEs)是解释大型语言模型激活的常用工具,但其在解决可解释性开放问题中的效用尚不明确。本文通过使用SAEs加深对上下文学习(ICL)机制的理解,展示了SAEs的有效性。我们识别出抽象的SAE特征,这些特征(i)编码了模型执行哪个任务的知识,以及(ii)其潜在向量因果地诱导了任务的零样本执行。这与先前表明ICL是由任务向量介导的工作相一致。我们进一步证明,这些任务向量可以通过SAE潜在向量的稀疏和来很好地近似,包括这些任务执行特征。为了探索ICL机制,我们调整了Marks等人(2024)的稀疏特征电路方法,使其适用于更大的Gemma-1 2B模型(参数多30倍),以及更复杂的ICL任务。通过电路发现,我们发现了任务检测特征,其对应的SAE潜在向量在prompt中较早激活,检测任务何时被执行。它们通过注意力和MLP子层与任务执行特征因果相关联。
🔬 方法详解
问题定义:论文旨在解决大型语言模型中上下文学习(ICL)机制的可解释性问题。现有方法,如直接分析模型权重或激活,难以理解ICL的复杂过程。稀疏自编码器(SAE)虽然被用于解释模型激活,但其在揭示ICL机制方面的潜力尚未被充分挖掘。
核心思路:论文的核心思路是利用SAE提取模型中的抽象特征,并构建稀疏特征电路,从而理解ICL背后的机制。通过识别与任务检测和执行相关的SAE特征,并分析它们之间的连接,可以揭示模型如何根据上下文信息执行任务。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 使用SAE训练来提取Gemma-1 2B模型中的稀疏特征。2) 识别与任务检测和任务执行相关的SAE特征。任务检测特征在prompt早期激活,指示任务类型;任务执行特征则负责执行相应的任务。3) 使用稀疏特征电路方法,分析这些特征之间的连接,特别是通过注意力和MLP子层的连接,从而构建任务检测特征到任务执行特征的因果路径。
关键创新:论文的关键创新在于将稀疏特征电路方法扩展到更大规模的模型(Gemma-1 2B)和更复杂的ICL任务。此外,论文还识别出与任务检测和执行相关的特定SAE特征,并揭示了它们之间的因果关系,从而为理解ICL机制提供了新的视角。
关键设计:论文的关键设计包括:1) 使用L1正则化训练SAE,以获得稀疏的特征表示。2) 设计实验来识别与任务检测和执行相关的SAE特征,例如,通过分析不同任务prompt下SAE特征的激活模式。3) 使用因果干预技术来验证任务检测特征对任务执行特征的因果影响。4) 调整Marks等人的稀疏特征电路方法,使其适用于更大规模的模型和更复杂的ICL任务。
🖼️ 关键图片
📊 实验亮点
研究成功地将稀疏特征电路方法扩展到Gemma-1 2B模型,该模型比以往研究的模型大30倍。通过电路发现,识别出任务检测特征,这些特征在prompt早期激活,并通过注意力和MLP子层与任务执行特征因果相关联,揭示了ICL机制的关键组成部分。
🎯 应用场景
该研究成果可应用于提升大型语言模型的可解释性和可控性。通过理解ICL机制,可以更好地诊断和修复模型中的偏差和错误,并开发更可靠、更安全的AI系统。此外,该方法还可以用于设计更有效的prompt,以提高模型的性能。
📄 摘要(原文)
Sparse autoencoders (SAEs) are a popular tool for interpreting large language model activations, but their utility in addressing open questions in interpretability remains unclear. In this work, we demonstrate their effectiveness by using SAEs to deepen our understanding of the mechanism behind in-context learning (ICL). We identify abstract SAE features that (i) encode the model's knowledge of which task to execute and (ii) whose latent vectors causally induce the task zero-shot. This aligns with prior work showing that ICL is mediated by task vectors. We further demonstrate that these task vectors are well approximated by a sparse sum of SAE latents, including these task-execution features. To explore the ICL mechanism, we adapt the sparse feature circuits methodology of Marks et al. (2024) to work for the much larger Gemma-1 2B model, with 30 times as many parameters, and to the more complex task of ICL. Through circuit finding, we discover task-detecting features with corresponding SAE latents that activate earlier in the prompt, that detect when tasks have been performed. They are causally linked with task-execution features through the attention and MLP sublayers.