Improving Neuron-level Interpretability with White-box Language Models

📄 arXiv: 2410.16443v4 📥 PDF

作者: Hao Bai, Yi Ma

分类: cs.CL, cs.LG

发布日期: 2024-10-21 (更新: 2025-02-27)

备注: CPAL 2025 camera-ready version. Selected as Oral


💡 一句话要点

提出CRATE:一种白盒Transformer架构,提升神经元级可解释性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 白盒模型 可解释性 稀疏编码 Transformer 语言模型 神经元分析 自回归模型

📋 核心要点

  1. 现有自回归语言模型的可解释性依赖于对神经元激活模式的分析,后处理稀疏编码方法虽有改进,但非模型内生。
  2. 论文提出CRATE架构,通过内嵌稀疏编码,直接在模型设计上捕获数据中的稀疏低维结构,提升模型可解释性。
  3. 实验表明,CRATE在神经元级别可解释性上取得了显著提升,且性能稳定,为白盒基础模型设计提供了新思路。

📝 摘要(中文)

本文旨在通过将稀疏编码直接嵌入模型架构中,从根本上提升神经网络的可解释性,而非采用后处理的方式。为此,作者提出了一种名为Coding RAte TransformEr (CRATE)的白盒Transformer架构,该架构被专门设计用于捕获数据分布中稀疏、低维的结构。实验结果表明,CRATE在多种评估指标上显著提升了神经元级别的可解释性(相对提升高达103%)。进一步的分析表明,这种增强的可解释性在不同层之间保持稳定,不受模型大小的影响,突显了CRATE在提升神经网络可解释性方面的稳健性。研究还发现,CRATE可解释性的提升源于其在相关token上持续且清晰地激活的能力。这些发现为创建在神经元级别解释方面表现出色的白盒基础模型指明了一个有希望的方向。

🔬 方法详解

问题定义:现有语言模型的可解释性通常依赖于事后分析,例如使用字典学习等稀疏编码技术来解释神经元的激活模式。然而,这些方法是在模型训练完成后进行的,无法从根本上提升模型的可解释性。因此,如何设计一种具有内生可解释性的模型架构是一个重要的挑战。

核心思路:论文的核心思路是将稀疏编码的思想融入到Transformer的架构设计中,从而使模型在训练过程中就能够学习到稀疏的、易于解释的表示。通过显式地约束模型的表示空间,使其能够更好地捕获数据中的低维结构,从而提升神经元级别的可解释性。

技术框架:CRATE(Coding RAte TransformEr)是一种Transformer-like的架构,其核心模块包括编码层、注意力层和解码层。编码层负责将输入token转换为嵌入向量,注意力层负责学习token之间的关系,解码层负责生成输出token。与传统Transformer不同的是,CRATE在编码层和解码层中引入了稀疏编码机制,以约束模型的表示空间。

关键创新:CRATE最重要的技术创新点在于将稀疏编码直接嵌入到模型架构中,而不是作为后处理步骤。这种内生的稀疏编码机制使得模型在训练过程中就能够学习到易于解释的表示,从而提升了神经元级别的可解释性。此外,CRATE的设计还考虑了模型的可扩展性,使其能够应用于不同大小的模型。

关键设计:CRATE的关键设计包括:1) 使用L1正则化来约束神经元的激活,鼓励稀疏性;2) 设计了一种新的损失函数,用于衡量模型的表示空间的稀疏性和信息量;3) 调整了注意力机制,使其能够更好地关注重要的token。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CRATE在神经元级别的可解释性上取得了显著提升,相对提升高达103%。此外,CRATE的可解释性在不同层之间保持稳定,不受模型大小的影响。研究还发现,CRATE能够更一致且清晰地激活相关token,从而提升了可解释性。这些结果表明,CRATE是一种有效的提升神经元级别可解释性的方法。

🎯 应用场景

该研究成果可应用于自然语言处理的多个领域,例如文本分类、机器翻译和文本生成。通过提升模型的可解释性,可以更好地理解模型的决策过程,从而提高模型的可靠性和安全性。此外,该研究还有助于开发更易于调试和维护的语言模型,并为构建可信赖的人工智能系统奠定基础。

📄 摘要(原文)

Neurons in auto-regressive language models like GPT-2 can be interpreted by analyzing their activation patterns. Recent studies have shown that techniques such as dictionary learning, a form of post-hoc sparse coding, enhance this neuron-level interpretability. In our research, we are driven by the goal to fundamentally improve neural network interpretability by embedding sparse coding directly within the model architecture, rather than applying it as an afterthought. In our study, we introduce a white-box transformer-like architecture named Coding RAte TransformEr (CRATE), explicitly engineered to capture sparse, low-dimensional structures within data distributions. Our comprehensive experiments showcase significant improvements (up to 103% relative improvement) in neuron-level interpretability across a variety of evaluation metrics. Detailed investigations confirm that this enhanced interpretability is steady across different layers irrespective of the model size, underlining CRATE's robust performance in enhancing neural network interpretability. Further analysis shows that CRATE's increased interpretability comes from its enhanced ability to consistently and distinctively activate on relevant tokens. These findings point towards a promising direction for creating white-box foundation models that excel in neuron-level interpretation.