Decomposing Query-Key Feature Interactions Using Contrastive Covariances

作者: Andrew Lee, Yonatan Belinkov, Fernanda Viégas, Martin Wattenberg

分类: cs.LG

发布日期: 2026-02-04

💡 一句话要点

提出对比协方差方法，分解Transformer的Query-Key交互空间，提升模型可解释性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Transformer 注意力机制 可解释性 对比学习 Query-Key空间 低秩分解 语言模型

📋 核心要点

Transformer注意力机制缺乏有效工具来解释模型关注特定token的原因，可解释性不足。
提出对比协方差方法，将query-key空间分解为低秩可解释成分，揭示注意力机制的运作方式。
在大型语言模型上验证，成功识别了分类语义特征和绑定特征的QK子空间，并实现了注意力分数归因。

📝 摘要（中文）

本文研究了Transformer中注意力头的query-key (QK)空间，旨在理解模型关注特定token的原因。为此，我们提出了一种对比协方差方法，将QK空间分解为低秩、人类可解释的成分。该方法揭示了key和query中的特征在这些低秩子空间中对齐时，会产生较高的注意力分数。我们首先在简化的设置中对该方法进行了分析和实验验证。然后，我们将该方法应用于大型语言模型，以识别用于分类语义特征和绑定特征的人类可解释的QK子空间。最后，我们展示了如何将注意力分数归因于我们识别出的特征。

🔬 方法详解

问题定义：Transformer模型中的注意力机制在各种任务中表现出色，但我们缺乏理解模型为何关注特定token的有效工具。现有的方法难以解释query和key之间的复杂交互，导致注意力机制成为一个黑盒。因此，如何提升Transformer注意力机制的可解释性是一个关键问题。

核心思路：本文的核心思路是将query-key (QK)空间分解为低秩、人类可解释的成分。通过分析这些低秩子空间，可以揭示query和key之间的哪些特征对齐导致了高注意力分数。对比协方差方法旨在识别这些关键的特征交互模式。

技术框架：该方法首先计算query和key的协方差矩阵，然后使用对比学习的思想，通过引入负样本来增强特征的区分性。接着，对对比协方差矩阵进行低秩分解，得到一系列低秩子空间。每个子空间对应于一种特定的特征交互模式。最后，可以将注意力分数归因于这些识别出的特征。

关键创新：该方法最重要的创新点在于使用对比协方差来分解QK空间。传统的协方差分析方法难以区分重要的特征交互模式和噪声。通过引入负样本，对比协方差方法可以更有效地识别与注意力分数相关的关键特征。

关键设计：对比学习中的负样本选择策略至关重要。论文中可能采用了随机负采样或基于hard negative mining的策略。低秩分解可以使用SVD等方法。此外，如何将注意力分数归因于识别出的特征，可能涉及到计算每个特征对注意力分数的贡献度。

🖼️ 关键图片

📊 实验亮点

该论文通过对比协方差方法成功地将大型语言模型的query-key空间分解为人类可解释的成分，并展示了如何将注意力分数归因于这些成分。实验结果表明，该方法能够有效地识别与分类语义特征和绑定特征相关的QK子空间，从而提升了模型的可解释性。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可解释性和可控性。例如，可以利用该方法诊断模型在特定任务中出现错误的原因，并进行针对性的改进。此外，该方法还可以用于设计更具可解释性的Transformer模型，从而提高模型在实际应用中的可靠性。

📄 摘要（原文）

Despite the central role of attention heads in Transformers, we lack tools to understand why a model attends to a particular token. To address this, we study the query-key (QK) space -- the bilinear joint embedding space between queries and keys. We present a contrastive covariance method to decompose the QK space into low-rank, human-interpretable components. It is when features in keys and queries align in these low-rank subspaces that high attention scores are produced. We first study our method both analytically and empirically in a simplified setting. We then apply our method to large language models to identify human-interpretable QK subspaces for categorical semantic features and binding features. Finally, we demonstrate how attention scores can be attributed to our identified features.

Decomposing Query-Key Feature Interactions Using Contrastive Covariances

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理