Rethinking Evaluation of Sparse Autoencoders through the Representation of Polysemous Words

📄 arXiv: 2501.06254v2 📥 PDF

作者: Gouki Minegishi, Hiroki Furuta, Yusuke Iwasawa, Yutaka Matsuo

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-01-09 (更新: 2025-02-18)

备注: Published at ICLR2025


💡 一句话要点

提出基于多义词表示的稀疏自编码器评估方法,揭示现有优化目标与单义特征提取的矛盾。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏自编码器 可解释性 多义词 语义表示 评估方法

📋 核心要点

  1. 现有稀疏自编码器的评估指标忽略了语义表示能力,无法有效衡量其提取单义特征的能力。
  2. 论文提出一套针对多义词的评估方法,分析稀疏自编码器提取单义特征的质量,关注其区分多义词不同含义的能力。
  3. 实验表明,优化MSE-L0的稀疏自编码器可能损害可解释性,且更深层和注意力模块有助于区分多义性。

📝 摘要(中文)

稀疏自编码器(SAEs)作为一种有前景的工具,通过将多义神经元的复杂叠加映射到单义特征并构成稀疏的词典,在提高大型语言模型(LLMs)的可解释性方面受到了广泛关注。然而,传统的性能指标,如均方误差和L0稀疏性,忽略了对SAEs语义表示能力的评估——即它们是否能在保留词语语义关系的同时获得可解释的单义特征。例如,一个学习到的稀疏特征是否能够区分一个词的不同含义并不明显。在本文中,我们提出了一套SAEs的评估方法,通过关注多义词来分析单义特征的质量。我们的研究结果表明,为改进MSE-L0帕累托前沿而开发的SAEs可能会混淆可解释性,这不一定会增强单义特征的提取。对多义词的SAEs分析也可以揭示LLMs的内部机制;更深层和注意力模块有助于区分一个词中的多义性。我们以语义为中心的评估为多义性和现有的SAE目标提供了新的见解,并有助于开发更实用的SAEs。

🔬 方法详解

问题定义:现有稀疏自编码器(SAE)的评估方法主要依赖于均方误差(MSE)和L0稀疏性等指标,这些指标无法有效衡量SAE是否能够学习到真正具有语义意义的、可解释的单义特征。尤其是在处理多义词时,传统的评估方法无法判断SAE是否能够区分同一个词的不同含义,从而影响了SAE在提升大型语言模型(LLM)可解释性方面的应用效果。

核心思路:论文的核心思路是通过关注多义词的表示,设计一套新的评估指标来衡量SAE学习到的特征是否具有单义性,即能否区分同一个词的不同含义。通过分析SAE在处理多义词时的表现,可以更全面地评估SAE的语义表示能力,并揭示LLM内部处理多义性的机制。

技术框架:论文提出的评估框架主要包括以下几个步骤:1) 选择包含多义词的测试数据集;2) 使用SAE对LLM的激活进行编码,得到稀疏特征表示;3) 设计针对多义词的评估指标,例如,衡量SAE能否将同一个词的不同含义映射到不同的特征上;4) 分析评估结果,判断SAE是否成功提取了单义特征,并揭示LLM内部处理多义性的机制。

关键创新:论文的关键创新在于提出了基于多义词表示的SAE评估方法,弥补了传统评估方法在语义表示能力评估方面的不足。该方法能够更准确地衡量SAE学习到的特征是否具有单义性,并为SAE的优化提供更有效的指导。

关键设计:论文的关键设计包括:1) 多义词数据集的选择,需要包含足够数量的多义词,并且每个多义词的不同含义需要有明确的区分;2) 评估指标的设计,需要能够有效衡量SAE是否能够将同一个词的不同含义映射到不同的特征上,例如,可以使用聚类算法对SAE学习到的特征进行聚类,然后计算不同含义的词是否被聚类到不同的簇中;3) 分析SAE不同层和不同模块(如Attention模块)对多义性区分的贡献,从而揭示LLM内部处理多义性的机制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,为优化MSE-L0帕累托前沿而开发的SAE可能损害可解释性,即降低其区分多义词不同含义的能力。同时,实验还发现,LLM的更深层和注意力模块在区分多义性方面发挥着重要作用,这为理解LLM的内部机制提供了新的视角。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可解释性,通过更有效地评估和优化稀疏自编码器,使其能够提取更具语义意义的单义特征。这有助于理解LLM的内部工作机制,并为开发更可控、更可靠的LLM提供理论基础。此外,该方法还可以应用于其他需要处理多义性的自然语言处理任务,例如机器翻译、信息检索等。

📄 摘要(原文)

Sparse autoencoders (SAEs) have gained a lot of attention as a promising tool to improve the interpretability of large language models (LLMs) by mapping the complex superposition of polysemantic neurons into monosemantic features and composing a sparse dictionary of words. However, traditional performance metrics like Mean Squared Error and L0 sparsity ignore the evaluation of the semantic representational power of SAEs -- whether they can acquire interpretable monosemantic features while preserving the semantic relationship of words. For instance, it is not obvious whether a learned sparse feature could distinguish different meanings in one word. In this paper, we propose a suite of evaluations for SAEs to analyze the quality of monosemantic features by focusing on polysemous words. Our findings reveal that SAEs developed to improve the MSE-L0 Pareto frontier may confuse interpretability, which does not necessarily enhance the extraction of monosemantic features. The analysis of SAEs with polysemous words can also figure out the internal mechanism of LLMs; deeper layers and the Attention module contribute to distinguishing polysemy in a word. Our semantics focused evaluation offers new insights into the polysemy and the existing SAE objective and contributes to the development of more practical SAEs.