Sparse Autoencoders Trained on the Same Data Learn Different Features
作者: Gonçalo Paulo, Nora Belrose
分类: cs.LG
发布日期: 2025-01-28 (更新: 2025-01-29)
💡 一句话要点
稀疏自编码器在相同数据上训练会学习到不同的特征表示。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 稀疏自编码器 特征提取 大型语言模型 随机初始化 特征稳定性
📋 核心要点
- 现有方法期望稀疏自编码器能发现LLM的真实底层特征,但实际效果并不理想,存在特征不一致问题。
- 论文核心思想是,即使在相同数据和模型上训练,仅随机种子不同的SAE也会学习到差异显著的特征。
- 实验结果表明,不同种子初始化的SAE特征共享率低,TopK激活函数对种子依赖性更强,表明SAE特征具有不确定性。
📝 摘要(中文)
稀疏自编码器(SAEs)是揭示大型语言模型(LLMs)激活中人类可解释特征的有效工具。尽管有人期望SAEs能够找到模型使用的真实底层特征,但我们的研究表明,在相同的模型和数据上训练的SAEs,仅在用于初始化权重的随机种子方面存在差异,却会识别出不同的特征集。例如,在使用Llama 3 8B中的前馈网络训练的具有131K潜在变量的SAE中,只有30%的特征在不同的种子之间共享。我们在三种不同的LLM、两个数据集和几种SAE架构的多个层中观察到了这种现象。虽然使用L1稀疏损失训练的ReLU SAE在不同种子之间表现出更高的稳定性,但使用最先进的TopK激活函数的SAE对种子的依赖性更强,即使在控制稀疏程度的情况下也是如此。我们的结果表明,SAE揭示的特征集应被视为激活空间的一种实用的分解,而不是模型“真正使用”的特征的详尽和通用的列表。
🔬 方法详解
问题定义:论文旨在解决稀疏自编码器(SAE)在大型语言模型(LLM)特征提取中,由于随机初始化导致特征不一致的问题。现有方法期望SAE能稳定地发现LLM的底层真实特征,但实际应用中,即使在相同数据和模型上训练,不同随机种子初始化的SAE也会学习到不同的特征表示,这使得SAE提取的特征难以解释和应用。
核心思路:论文的核心思路是,通过实验验证SAE在不同随机种子下的特征提取稳定性。研究人员发现,SAE学习到的特征高度依赖于随机初始化,即使控制稀疏度,不同种子下的特征差异依然显著。这表明SAE提取的特征并非LLM固有的底层特征,而是一种依赖于初始化的激活空间分解。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选择不同的LLM(如Llama 3 8B)和数据集;2) 在LLM的多个层上训练SAE,并使用不同的随机种子初始化权重;3) 分析不同种子下SAE学习到的特征的重叠程度,评估特征的稳定性;4) 比较不同SAE架构(如ReLU SAE和TopK激活函数SAE)在特征稳定性方面的表现。
关键创新:论文的关键创新在于,它揭示了SAE在LLM特征提取中的不稳定性。以往研究通常假设SAE能够发现LLM的真实底层特征,而该论文通过实验证明,SAE学习到的特征高度依赖于随机初始化,并非LLM固有的。这一发现挑战了SAE在LLM特征提取中的传统认知。
关键设计:论文的关键设计包括:1) 使用多种LLM和数据集,以验证结果的普适性;2) 控制SAE的稀疏度,以排除稀疏度对特征稳定性的影响;3) 比较不同SAE架构(ReLU和TopK),以评估不同架构对特征稳定性的影响;4) 使用特征重叠率作为评估特征稳定性的指标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在使用Llama 3 8B中的前馈网络训练的具有131K潜在变量的SAE中,只有30%的特征在不同的种子之间共享。此外,使用TopK激活函数的SAE对种子的依赖性更强,即使在控制稀疏程度的情况下也是如此。这些数据有力地支持了论文的结论,即SAE学习到的特征高度依赖于随机初始化。
🎯 应用场景
该研究成果对理解和应用稀疏自编码器具有重要意义。它提醒研究人员,SAE提取的特征并非LLM的唯一真实表示,而是一种依赖于初始化的分解。在实际应用中,应谨慎使用SAE提取的特征,并考虑多种初始化下的特征差异。该研究还有助于改进SAE的训练方法,提高特征的稳定性。
📄 摘要(原文)
Sparse autoencoders (SAEs) are a useful tool for uncovering human-interpretable features in the activations of large language models (LLMs). While some expect SAEs to find the true underlying features used by a model, our research shows that SAEs trained on the same model and data, differing only in the random seed used to initialize their weights, identify different sets of features. For example, in an SAE with 131K latents trained on a feedforward network in Llama 3 8B, only 30% of the features were shared across different seeds. We observed this phenomenon across multiple layers of three different LLMs, two datasets, and several SAE architectures. While ReLU SAEs trained with the L1 sparsity loss showed greater stability across seeds, SAEs using the state-of-the-art TopK activation function were more seed-dependent, even when controlling for the level of sparsity. Our results suggest that the set of features uncovered by an SAE should be viewed as a pragmatically useful decomposition of activation space, rather than an exhaustive and universal list of features "truly used" by the model.