Decomposing Query-Key Feature Interactions Using Contrastive Covariances
作者: Andrew Lee, Yonatan Belinkov, Fernanda Viégas, Martin Wattenberg
分类: cs.LG
发布日期: 2026-02-04
💡 一句话要点
提出对比协方差方法,分解Transformer的Query-Key交互空间,提升模型可解释性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Transformer 注意力机制 可解释性 对比学习 Query-Key空间 低秩分解 语言模型
📋 核心要点
- Transformer注意力机制缺乏有效工具来解释模型关注特定token的原因,可解释性不足。
- 提出对比协方差方法,将query-key空间分解为低秩可解释成分,揭示注意力机制的运作方式。
- 在大型语言模型上验证,成功识别了分类语义特征和绑定特征的QK子空间,并实现了注意力分数归因。
📝 摘要(中文)
本文研究了Transformer中注意力头的query-key (QK)空间,旨在理解模型关注特定token的原因。为此,我们提出了一种对比协方差方法,将QK空间分解为低秩、人类可解释的成分。该方法揭示了key和query中的特征在这些低秩子空间中对齐时,会产生较高的注意力分数。我们首先在简化的设置中对该方法进行了分析和实验验证。然后,我们将该方法应用于大型语言模型,以识别用于分类语义特征和绑定特征的人类可解释的QK子空间。最后,我们展示了如何将注意力分数归因于我们识别出的特征。
🔬 方法详解
问题定义:Transformer模型中的注意力机制在各种任务中表现出色,但我们缺乏理解模型为何关注特定token的有效工具。现有的方法难以解释query和key之间的复杂交互,导致注意力机制成为一个黑盒。因此,如何提升Transformer注意力机制的可解释性是一个关键问题。
核心思路:本文的核心思路是将query-key (QK)空间分解为低秩、人类可解释的成分。通过分析这些低秩子空间,可以揭示query和key之间的哪些特征对齐导致了高注意力分数。对比协方差方法旨在识别这些关键的特征交互模式。
技术框架:该方法首先计算query和key的协方差矩阵,然后使用对比学习的思想,通过引入负样本来增强特征的区分性。接着,对对比协方差矩阵进行低秩分解,得到一系列低秩子空间。每个子空间对应于一种特定的特征交互模式。最后,可以将注意力分数归因于这些识别出的特征。
关键创新:该方法最重要的创新点在于使用对比协方差来分解QK空间。传统的协方差分析方法难以区分重要的特征交互模式和噪声。通过引入负样本,对比协方差方法可以更有效地识别与注意力分数相关的关键特征。
关键设计:对比学习中的负样本选择策略至关重要。论文中可能采用了随机负采样或基于hard negative mining的策略。低秩分解可以使用SVD等方法。此外,如何将注意力分数归因于识别出的特征,可能涉及到计算每个特征对注意力分数的贡献度。
🖼️ 关键图片
📊 实验亮点
该论文通过对比协方差方法成功地将大型语言模型的query-key空间分解为人类可解释的成分,并展示了如何将注意力分数归因于这些成分。实验结果表明,该方法能够有效地识别与分类语义特征和绑定特征相关的QK子空间,从而提升了模型的可解释性。
🎯 应用场景
该研究成果可应用于提升大型语言模型的可解释性和可控性。例如,可以利用该方法诊断模型在特定任务中出现错误的原因,并进行针对性的改进。此外,该方法还可以用于设计更具可解释性的Transformer模型,从而提高模型在实际应用中的可靠性。
📄 摘要(原文)
Despite the central role of attention heads in Transformers, we lack tools to understand why a model attends to a particular token. To address this, we study the query-key (QK) space -- the bilinear joint embedding space between queries and keys. We present a contrastive covariance method to decompose the QK space into low-rank, human-interpretable components. It is when features in keys and queries align in these low-rank subspaces that high attention scores are produced. We first study our method both analytically and empirically in a simplified setting. We then apply our method to large language models to identify human-interpretable QK subspaces for categorical semantic features and binding features. Finally, we demonstrate how attention scores can be attributed to our identified features.