Semantic Optimal Transport for Sparse Autoencoder Feature Matching and Circuit Compression

📄 arXiv: 2605.28567v1 📥 PDF

作者: Tue M. Cao, Nguyen Do, My T. Thai

分类: cs.LG, cs.AI

发布日期: 2026-05-27

备注: preprint


💡 一句话要点

提出基于语义最优传输的稀疏自编码器特征匹配与电路压缩方法

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 稀疏自编码器 特征匹配 电路压缩 语义最优传输 Wasserstein距离

📋 核心要点

  1. 现有稀疏自编码器分析在跨层特征匹配和电路压缩方面面临扩展性挑战,难以有效处理大规模模型。
  2. 论文提出一种基于语义最优传输的分布式框架,通过激活加权分布和Wasserstein距离来度量特征间的语义距离。
  3. 实验结果表明,该方法在特征匹配和电路压缩方面优于现有方法,并能自动生成可解释的超节点。

📝 摘要(中文)

稀疏自编码器(SAE)已成为解释语言模型的关键工具。然而,两个SAE分析任务仍然难以扩展:跨多层匹配语义相似的特征,以及将大型特征电路压缩成可解释的超节点。虽然这些问题通常被视为独立的,但我们证明它们都是一个更根本挑战的实例,我们将其定义为估计位于不同激活流形上的SAE特征之间的语义距离。我们为此问题引入了一个分布式的框架,其中每个特征不是像文献中那样由单个解码器向量表示,而是由表达它的隐藏状态上的激活加权分布表示。通过将这些分布投影到共享参考空间并使用Wasserstein距离进行比较,我们的方法为跨层特征比较提供了一个统一的语义度量。我们证明了我们的表示对于激活重新缩放是不变的,在扰动下是稳定的,并且在有限样本边际条件下恢复真实匹配。实验表明,我们的方法优于基于解码器向量和基于LLM的基线,并捕获了相关特征之间细微的功能差异。值得注意的是,我们的方法可以自动将大型特征电路压缩成可解释的超节点。

🔬 方法详解

问题定义:现有的稀疏自编码器(SAE)分析方法,在跨多层匹配语义相似的特征以及将大型特征电路压缩成可解释的超节点时,面临着扩展性问题。传统的基于解码器向量的方法难以准确捕捉特征间的语义关系,而基于LLM的方法计算成本高昂。因此,如何高效且准确地度量不同激活流形上的SAE特征之间的语义距离是一个关键挑战。

核心思路:论文的核心思路是将每个SAE特征表示为一个激活加权分布,而不是传统的解码器向量。这个分布反映了表达该特征的隐藏状态的激活情况。通过比较这些分布之间的距离,可以更准确地捕捉特征间的语义关系。使用Wasserstein距离作为分布间距离的度量,因为它能够有效地处理不同流形上的分布比较。

技术框架:该方法包含以下主要步骤:1) 对于每个SAE特征,构建其在隐藏状态上的激活加权分布。2) 将这些分布投影到一个共享的参考空间。3) 使用Wasserstein距离计算这些投影分布之间的距离,作为特征间语义距离的度量。4) 基于计算得到的语义距离,进行跨层特征匹配和电路压缩。

关键创新:该方法最重要的创新点在于使用激活加权分布来表示SAE特征,并使用Wasserstein距离来度量特征间的语义距离。这种表示方法能够更准确地捕捉特征间的语义关系,并且对于激活重新缩放是不变的,在扰动下是稳定的。此外,该方法提供了一个统一的框架,可以同时解决跨层特征匹配和电路压缩问题。

关键设计:关键设计包括:1) 如何选择合适的隐藏状态作为分布的支撑集。2) 如何计算每个隐藏状态的激活权重。3) 如何选择合适的参考空间进行分布投影。4) 如何高效地计算Wasserstein距离。论文中可能使用了Sinkhorn算法等加速Wasserstein距离计算的方法。具体的损失函数可能涉及到Wasserstein距离的最小化,以及一些正则化项,以保证特征表示的稀疏性和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在跨层特征匹配和电路压缩方面优于基于解码器向量和基于LLM的基线方法。该方法能够捕捉相关特征之间细微的功能差异,并自动将大型特征电路压缩成可解释的超节点。具体的性能提升数据(例如,匹配准确率、压缩率等)未知,需要在论文中查找。

🎯 应用场景

该研究成果可应用于语言模型的可解释性分析,例如理解模型内部特征的功能和关系,以及对模型进行压缩和优化。此外,该方法还可以推广到其他类型的自编码器和神经网络,用于特征匹配、知识迁移和模型压缩等任务。未来,该方法有望促进对复杂AI系统的理解和控制。

📄 摘要(原文)

Sparse autoencoders (SAEs) have become a central tool for interpreting language models. However, two key SAE analyses that remain difficult to scale are (1) matching semantically similar features across multi-layers and (2) compressing large feature circuits into interpretable supernodes. Although these have been treated as separate problems, we show that both are instances of a more fundamental challenge, which we frame as the estimation of semantic distances between SAE features that lie on different activation manifolds. We introduce a distributional framework for this problem, in which each feature is represented not by a single decoder vector like in the literature, but by an activation-weighted distribution over the hidden states that express it. By projecting these distributions into a shared reference space and comparing them with Wasserstein distance, our method provides a unified semantic metric for cross-layer feature comparison. We prove that our representation is invariant to activation rescaling, stable under perturbations, and recovers true matches under finite-sample margin conditions. Empirically, our method outperforms decoder-vector and LLM-based baselines and captures subtle functional distinctions between related features. Notably, our method compresses large feature circuits into interpretable supernodes automatically.