Rethinking Sparse Autoencoders: Select-and-Project for Fairness and Control from Encoder Features Alone

作者: Antonio Bărbălau, Cristian Daniel Păduraru, Teodor Poncu, Alexandru Tifrea, Elena Burceanu

分类: cs.LG, cs.AI

发布日期: 2025-09-13 (更新: 2025-12-05)

💡 一句话要点

提出S&P Top-K，通过选择和投影编码器特征实现模型公平性和行为控制。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 稀疏自编码器 模型引导 公平性 可解释性 编码器干预

📋 核心要点

传统稀疏自编码器(SAE)依赖解码器修改中间表示进行模型引导，效率和效果有待提升。
论文提出S&P Top-K框架，直接在编码器特征空间进行选择和投影，实现更有效的模型控制。
实验表明，S&P Top-K在公平性和行为控制方面显著优于传统SAE方法，提升高达3.6倍。

📝 摘要（中文）

稀疏自编码器(SAEs)被广泛应用于机制可解释性和模型引导。通常，模型引导通过解码修改后的SAE中间表示来实现，本质上是将原始激活重写为解码器特征的加权和。与现有文献不同，本文提出了一种以编码器为中心的模型引导替代方案，该方案展示了更强的跨模态性能。我们引入了S&P Top-K，一种无需重新训练且计算量轻的选择和投影框架，用于识别与敏感属性或行为对齐的Top-K编码器特征，可选择地将它们聚合为单个控制轴，并计算正交投影，随后直接应用于模型的原生嵌入空间。在视觉-语言模型中，它在CelebA和FairFace上的公平性指标比传统SAE用法提高了高达3.2倍；在大型语言模型中，它显著降低了Llama-3 8B Instruct的攻击性和谄媚性，实现了比掩码重建高达3.6倍的增益。这些发现表明，与传统的以解码器为中心的SAE使用相比，以编码器为中心的干预提供了一种通用、高效且更有效的机制，用于在推理时塑造模型行为。

🔬 方法详解

问题定义：现有基于稀疏自编码器(SAE)的模型引导方法主要依赖于解码器，通过修改解码后的特征来影响模型的行为。这种方法计算成本高，且可能引入额外的偏差。此外，解码器修改后的特征可能与原始模型的嵌入空间不一致，导致性能下降。因此，如何更高效、更直接地控制模型的行为，同时保持其性能，是一个重要的研究问题。

核心思路：论文的核心思路是直接在编码器的特征空间中进行干预，避免使用解码器。通过选择与特定属性（如公平性）相关的Top-K个编码器特征，并将它们投影到模型的原生嵌入空间中，从而实现对模型行为的精确控制。这种方法不仅计算效率更高，而且能够更好地保持模型的原始性能。

技术框架：S&P Top-K框架主要包含以下几个阶段：1) 特征选择：使用某种度量（如相关性）来评估每个编码器特征与目标属性（如性别）的相关性。2) Top-K选择：选择与目标属性相关性最高的Top-K个特征。3) 特征聚合（可选）：将选定的Top-K个特征聚合成一个单一的控制轴。4) 正交投影：计算一个正交投影矩阵，用于将模型的嵌入向量投影到与控制轴正交的空间中。5) 模型干预：在推理时，将模型的嵌入向量通过正交投影矩阵进行变换，从而实现对模型行为的控制。

关键创新：该方法最重要的创新点在于以编码器为中心进行模型干预，避免了传统方法中对解码器的依赖。通过直接在编码器的特征空间中进行选择和投影，S&P Top-K能够更高效、更精确地控制模型的行为。此外，该方法无需重新训练模型，降低了计算成本。

关键设计：S&P Top-K的关键设计包括：1) Top-K的选择策略：如何选择与目标属性最相关的Top-K个特征，可以使用相关性分析、互信息等方法。2) 控制轴的聚合方法：如何将选定的Top-K个特征聚合成一个单一的控制轴，可以使用加权平均、主成分分析等方法。3) 正交投影矩阵的计算：如何计算一个正交投影矩阵，可以使用奇异值分解、特征值分解等方法。4) K值的选择：K值的选择会影响模型控制的强度和精度，需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，S&P Top-K在视觉-语言模型中，CelebA和FairFace数据集上的公平性指标比传统SAE用法提高了高达3.2倍。在大型语言模型Llama-3 8B Instruct中，S&P Top-K显著降低了模型的攻击性和谄媚性，实现了比掩码重建高达3.6倍的增益。这些结果表明，S&P Top-K是一种更有效、更通用的模型控制方法。

🎯 应用场景

该研究成果可广泛应用于需要公平性和可控性的AI系统中，例如人脸识别、信用评分、招聘系统等。通过S&P Top-K框架，可以有效地减少模型中的偏见，提高模型的公平性，并根据需要调整模型的行为，从而更好地满足实际应用的需求。未来，该方法有望在更多领域得到应用，例如医疗诊断、金融风控等。

📄 摘要（原文）

Sparse Autoencoders (SAEs) are widely employed for mechanistic interpretability and model steering. Within this context, steering is by design performed by means of decoding altered SAE intermediate representations. This procedure essentially rewrites the original activations as a weighted sum of decoder features. In contrast to existing literature, we forward an encoder-centric alternative to model steering which demonstrates a stronger cross-modal performance. We introduce S&P Top-K, a retraining-free and computationally lightweight Selection and Projection framework that identifies Top-K encoder features aligned with a sensitive attribute or behavior, optionally aggregates them into a single control axis, and computes an orthogonal projection to be subsequently applied directly in the model's native embedding space. In vision-language models, it improves fairness metrics on CelebA and FairFace by up to 3.2 times over conventional SAE usage, and in large language models, it substantially reduces aggressiveness and sycophancy in Llama-3 8B Instruct, achieving up to 3.6 times gains over masked reconstruction. These findings suggest that encoder-centric interventions provide a general, efficient, and more effective mechanism for shaping model behavior at inference time than the traditional decoder-centric use of SAEs.

Rethinking Sparse Autoencoders: Select-and-Project for Fairness and Control from Encoder Features Alone

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理