Are Sparse Autoencoder Benchmarks Reliable?

作者: David Chanin

分类: cs.LG, cs.AI

发布日期: 2026-05-18

💡 一句话要点

审计稀疏自编码器基准以提升评估可靠性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 稀疏自编码器 可解释性 模型评估 机器学习 自然语言处理

📋 核心要点

现有的稀疏自编码器评估基准存在可靠性不足的问题，无法有效区分不同质量的SAE。
本文通过审计SAEBench中的质量指标，提出了更可靠的评估方法，尤其是针对sae-probes的使用。
实验结果表明，现有的两个主要指标在评估中失效，sae-probes在区分不同SAE架构时仍存在困难。

📝 摘要（中文）

稀疏自编码器（SAEs）是大型语言模型的重要可解释性工具，其架构的进展依赖于能够可靠区分优劣SAE的基准。本文通过三种互补的视角审计了SAEBench中的SAE质量指标，发现两个指标在其标准设置下存在多重失效，建议不再用于SAE评估。其他指标的重抽样噪声更高，区分能力低于行业假设。尽管sae-probes变体是测试中最可靠的指标，但仍难以区分相同SAE架构的变体。研究表明，领域内需要更好的SAE基准。

🔬 方法详解

问题定义：本文旨在解决稀疏自编码器（SAEs）评估基准的可靠性问题，现有的SAEBench指标未能有效区分优劣SAE，导致评估结果不可信。

核心思路：通过对SAEBench中质量指标的审计，结合重抽样噪声、合成SAE的真实相关性和训练轨迹的可区分性，提出更可靠的评估方法。

技术框架：研究采用三种互补的视角进行审计，分别是固定SAE的重抽样噪声、合成SAE的真实相关性以及训练轨迹的可区分性，综合分析各指标的有效性。

关键创新：最重要的创新在于发现了Targeted Probe Perturbation（TPP）和Spurious Correlation Removal（SCR）在标准设置下的失效，提出sae-probes作为更可靠的评估指标。

关键设计：在实验中，sae-probes变体被测试为最可靠的指标，但仍面临区分相同SAE架构变体的挑战，表明需要进一步优化评估方法。

🖼️ 关键图片

📊 实验亮点

实验结果显示，TPP和SCR在多个审计视角下均表现不佳，建议不再使用。sae-probes作为最可靠的指标，尽管仍存在区分同一架构变体的困难，表明现有评估方法亟需改进。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理和机器学习模型的可解释性评估。通过改进的SAE评估基准，研究人员可以更有效地开发和优化大型语言模型，提升其在实际应用中的表现和可靠性。

📄 摘要（原文）

Sparse autoencoders (SAEs) are a core interpretability tool for large language models, and progress on SAE architectures depends on benchmarks that reliably distinguish better SAEs from worse ones. We audit the SAE quality metrics in SAEBench, the de-facto standard SAE evaluation suite, through three complementary lenses: reseed noise on a fixed SAE, ground-truth correlation on synthetic SAEs, and discriminability across training trajectories. We find that two of these metrics, Targeted Probe Perturbation (TPP) and Spurious Correlation Removal (SCR), fail multiple lenses at their canonical settings and should not be used to evaluate SAEs. The other metrics show higher reseed noise and lower discriminability than the field assumes. The sae-probes variant of $k$-sparse probing is the most reliable metric we tested, but even sae-probes struggles to separate variants of the same SAE architecture. Our results show the field needs better SAE benchmarks.

Are Sparse Autoencoder Benchmarks Reliable?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理