Tree SAE: Learning Hierarchical Feature Structures in Sparse Autoencoders
作者: Tue M. Cao, Hoang X. Nhat, Raed Alharbi, My T. Thai
分类: cs.LG
发布日期: 2026-05-08
备注: 21 pages
💡 一句话要点
提出Tree SAE模型,通过引入重构约束解决稀疏自编码器中特征层级结构学习的伪相关问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 稀疏自编码器 层级特征学习 大模型可解释性 特征解耦 神经网络表征 语义结构分析
📋 核心要点
- 现有基于激活覆盖率的方法难以区分语义相关的层级关系,常导致父子特征间出现虚假的关联,即产生高误报率。
- 论文提出了Tree SAE模型,通过引入一种新型重构约束,强制在层级间建立深层的函数依赖,从而有效过滤语义无关的特征对。
- 实验证明Tree SAE在层级特征学习任务上显著优于现有方法,并能有效解析大语言模型内部复杂的概念层级结构。
📝 摘要(中文)
在稀疏自编码器(SAEs)中学习层级特征对于捕捉现实数据的结构化本质及缓解特征吸收或分裂问题至关重要。现有研究主要依赖激活覆盖率(即子特征仅在父特征激活时激活)来识别层级关系,但作者指出该条件易产生语义无关的假阳性结果。为此,本文提出了Tree SAE,引入了一种新的重构条件,强制在层级间建立更深层的函数链接。通过结合激活约束与重构约束,Tree SAE能够直接从特征集中学习层级结构。实验结果表明,Tree SAE在学习层级对方面显著优于现有SAE模型,同时在多项关键基准测试中保持了与当前SOTA模型相当的性能。此外,研究还展示了Tree SAE在映射子特征子空间几何结构及揭示大语言模型内部复杂概念层级方面的实用价值。
🔬 方法详解
问题定义:现有SAE在处理特征层级时,仅依赖“子特征激活必须包含在父特征激活中”的统计覆盖率准则。这种方法忽略了特征间的语义逻辑,导致模型在学习过程中容易将统计上共现但语义无关的特征错误地归类为父子关系。
核心思路:论文的核心思想是引入“功能性重构”约束。不仅要求子特征的激活受限于父特征,还要求子特征在重构输入数据时,必须通过父特征的中间表示进行协同,从而确保层级间的逻辑一致性。
技术框架:Tree SAE在标准SAE架构基础上,构建了一个层级约束模块。该模块通过联合优化目标函数,同时对特征的激活模式(Activation Coverage)和重构贡献度(Reconstruction Contribution)进行建模,实现对层级结构的显式学习。
关键创新:最重要的创新在于提出了双重约束机制:将单纯的统计覆盖率扩展为“激活+重构”的联合约束。这种设计确保了父特征不仅是子特征的“触发器”,更是子特征表示空间的“功能性基石”。
关键设计:模型通过引入层级损失函数(Hierarchical Loss),对父子特征对的重构误差进行惩罚。在训练过程中,通过动态调整重构约束的权重,使模型能够从无监督的特征集中自动发现并固化层级拓扑结构。
🖼️ 关键图片
📊 实验亮点
Tree SAE在层级特征对识别任务上表现卓越,显著优于现有的基准模型。在多项关键基准测试中,该模型不仅在层级结构捕捉的准确率上实现了大幅提升,同时在重构误差和稀疏性指标上保持了与当前SOTA模型相当的竞争力,证明了其在复杂概念映射中的有效性。
🎯 应用场景
该研究主要应用于大语言模型(LLM)的可解释性分析,通过解析模型内部神经元的层级结构,帮助研究人员理解模型如何从基础概念构建复杂语义。此外,该方法在知识图谱自动构建、特征解耦学习以及复杂系统的数据表征领域具有广泛的潜在应用价值。
📄 摘要(原文)
Learning hierarchical features in Sparse Autoencoders (SAEs) is essential for capturing the structured nature of real-world data and mitigating issues like feature absorption or splitting. Existing works attempt to identify hierarchical relationships within independent feature sets by relying on activation coverage, the assumption that child feature should only activate when its parent feature activates. However, we demonstrate that this condition alone is insufficient; that is, it often produces false positives where parent and child concepts are semantically unrelated. To address this, we introduce a novel reconstruction condition that enforces a deeper functional link between hierarchical levels. By combining both activation and reconstruction constraints, we propose the Tree SAE, a model designed to learn hierarchical structures directly from within the feature set. Our results demonstrate that Tree SAEs significantly surpass the existing SAEs at learning hierarchical pairs while maintaining competitive performance to the state-of-the-art on several key benchmarks. Finally, we demonstrate the practical utility of our Tree SAE in mapping the geometry of child feature subspaces and uncovering the complex hierarchical concept structures encoded within large language models.