Observable Propagation: Uncovering Feature Vectors in Transformers
作者: Jacob Dunefsky, Arman Cohan
分类: cs.LG, cs.CL
发布日期: 2023-12-26 (更新: 2024-06-04)
备注: 42 pages, 6 tables, 3 figures. ICML 2024
💡 一句话要点
提出Observable Propagation方法,在低数据量下发现Transformer中的线性特征向量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 可解释性 Transformer 特征向量 线性特征 可观测传播 低数据学习 偏见分析
📋 核心要点
- 现有方法依赖大量标注数据来寻找Transformer中的线性特征,成本高昂且效率低下。
- ObProp方法利用“可观测值”的概念,通过线性泛函对应任务,从而在少量数据下发现特征向量。
- 实验表明,ObProp在低数据量下优于传统方法,并能用于理解大型语言模型中的偏见机制。
📝 摘要(中文)
本文提出了一种名为“可观测传播”(ObProp)的新方法,用于在Transformer语言模型中发现用于特定任务的线性特征(也称为“特征向量”)。现有的线性特征发现方法需要大量的标注数据,这既费力又耗费计算资源。ObProp的核心思想是“可观测值”,即对应于给定任务的线性泛函。论文还提出了一个用于分析特征向量的数学理论,包括一个名为耦合系数的相似性度量,用于估计一个特征的输出与另一个特征的相关程度。ObProp被用于对多个任务进行广泛的定性研究,包括性别职业偏见、政党预测和编程语言检测。结果表明,ObProp在低数据量情况下优于传统的特征向量发现方法,并且可以用于更好地理解大型语言模型中偏见的机制。
🔬 方法详解
问题定义:现有方法在发现Transformer中的线性特征向量时,需要大量标注数据,这导致了高昂的标注成本和计算成本。因此,如何在低数据量的情况下有效地发现Transformer中的线性特征向量是一个亟待解决的问题。
核心思路:ObProp的核心思路是利用“可观测值”的概念,将特定任务表示为激活空间中的线性泛函。通过分析这些可观测值在Transformer网络中的传播,可以推断出与该任务相关的特征向量。这种方法避免了对大量标注数据的依赖,从而降低了成本。
技术框架:ObProp方法主要包含以下几个步骤:1) 定义与特定任务相关的“可观测值”,例如,对于性别偏见检测任务,可观测值可以是模型预测为男性或女性的概率。2) 将这些可观测值作为线性泛函,作用于Transformer的中间层激活。3) 通过反向传播或其他方法,分析这些可观测值在网络中的传播路径。4) 根据传播路径上的激活模式,识别出与该任务相关的特征向量。5) 使用耦合系数等指标,评估不同特征向量之间的相关性。
关键创新:ObProp的关键创新在于它提出了一种基于“可观测值”的特征向量发现方法,该方法不需要大量的标注数据。与传统的需要大量标注数据的方法相比,ObProp在低数据量的情况下具有更高的效率和准确性。此外,论文还提出了耦合系数这一新的相似性度量,用于评估特征向量之间的相关性。
关键设计:ObProp的关键设计包括:1) 如何选择合适的“可观测值”来代表特定任务。2) 如何有效地分析可观测值在网络中的传播路径。3) 如何定义和计算耦合系数,以评估特征向量之间的相关性。论文中具体的可观测值选择取决于具体的任务,传播路径分析可以使用梯度反向传播等方法,耦合系数的定义则基于特征向量输出的相关性。
📊 实验亮点
ObProp在低数据量情况下,在性别职业偏见、政党预测和编程语言检测等任务上,超越了传统的特征向量发现方法。该方法能够更有效地识别与特定任务相关的特征向量,并能用于更好地理解大型语言模型中偏见的机制。具体性能数据未知,但定性分析表明ObProp具有显著优势。
🎯 应用场景
ObProp方法可应用于理解和减轻大型语言模型中的偏见,例如性别偏见、种族偏见等。此外,该方法还可以用于分析模型的决策过程,提高模型的可解释性,并为模型的改进提供指导。该方法在安全、公平和可信赖的人工智能领域具有重要的应用价值。
📄 摘要(原文)
A key goal of current mechanistic interpretability research in NLP is to find linear features (also called "feature vectors") for transformers: directions in activation space corresponding to concepts that are used by a given model in its computation. Present state-of-the-art methods for finding linear features require large amounts of labelled data -- both laborious to acquire and computationally expensive to utilize. In this work, we introduce a novel method, called "observable propagation" (in short: ObProp), for finding linear features used by transformer language models in computing a given task -- using almost no data. Our paradigm centers on the concept of "observables", linear functionals corresponding to given tasks. We then introduce a mathematical theory for the analysis of feature vectors, including a similarity metric between feature vectors called the coupling coefficient which estimates the degree to which one feature's output correlates with another's. We use ObProp to perform extensive qualitative investigations into several tasks, including gendered occupational bias, political party prediction, and programming language detection. Our results suggest that ObProp surpasses traditional approaches for finding feature vectors in the low-data regime, and that ObProp can be used to better understand the mechanisms responsible for bias in large language models.