Causality $\neq$ Invariance: Function and Concept Vectors in LLMs
作者: Gustaw Opiełka, Hannes Rosenbusch, Claire E. Stevenson
分类: cs.CL, cs.LG
发布日期: 2026-02-28
💡 一句话要点
揭示LLM中函数向量非不变性:提出概念向量以提升跨领域泛化能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 函数向量 概念向量 表征相似性分析 上下文学习
📋 核心要点
- 现有函数向量(FV)在不同输入格式下表现出非不变性,限制了其泛化能力。
- 提出概念向量(CV),通过表征相似性分析选择注意力头,以实现跨格式的概念一致性编码。
- 实验表明,FV擅长同分布任务,而CV在跨问题类型和语言的分布外泛化方面更优。
📝 摘要(中文)
大型语言模型(LLM)是否以抽象的方式表示概念,即独立于输入格式?本文重新审视了函数向量(FV),它是因果驱动任务表现的上下文学习(ICL)任务的紧凑表示。研究表明,在多个LLM中,FV并非完全不变:当从不同的输入格式(例如,开放式与多项选择)提取FV时,即使两者都针对相同的概念,FV也几乎是正交的。本文提出了概念向量(CV),它携带更稳定的概念表示。与FV类似,CV由注意力头的输出组成;然而,与FV不同,构成CV的头是使用表征相似性分析(RSA)选择的,基于它们是否在不同的输入格式中一致地编码概念。虽然这些头出现在与FV相关的头相似的层中,但这两组头在很大程度上是不同的,这表明了不同的底层机制。引导实验表明,当提取和应用格式匹配时(例如,都是英语的开放式问题),FV在分布内表现出色,而CV在问题类型(开放式与多项选择)和语言方面都表现出更好的分布外泛化能力。研究结果表明,LLM确实包含抽象的概念表示,但这些表示与驱动ICL性能的表示不同。
🔬 方法详解
问题定义:现有方法依赖的函数向量(FV)在大型语言模型中驱动上下文学习任务,但它们在不同输入格式(如开放式问题和多项选择题)下表现出显著差异,即非不变性。这种非不变性限制了FV在不同场景下的泛化能力,使得模型难以在新的输入格式上有效执行任务。因此,需要找到一种更鲁棒、更抽象的概念表示方法,以提升LLM的泛化能力。
核心思路:论文的核心思路是,虽然FV在不同输入格式下差异很大,但LLM内部仍然存在对概念的抽象表示。为了找到这些抽象表示,论文提出了概念向量(CV)的概念,并通过表征相似性分析(RSA)来选择那些在不同输入格式下编码概念最一致的注意力头。通过利用这些一致的注意力头,CV能够捕捉到更稳定、更通用的概念表示。
技术框架:论文的技术框架主要包括以下几个步骤:1) 使用不同的输入格式(如开放式问题和多项选择题)来提示LLM执行相同的任务。2) 提取每个输入格式下的注意力头输出。3) 使用表征相似性分析(RSA)来比较不同输入格式下注意力头输出的相似性。4) 选择那些在不同输入格式下表现出最高相似性的注意力头,并将它们的输出组合成概念向量(CV)。5) 使用FV和CV进行引导实验,评估它们在同分布和分布外任务上的性能。
关键创新:论文最重要的技术创新点在于提出了概念向量(CV)的概念,并使用表征相似性分析(RSA)来选择那些在不同输入格式下编码概念最一致的注意力头。与现有的函数向量(FV)相比,CV能够捕捉到更稳定、更通用的概念表示,从而提升LLM在不同场景下的泛化能力。FV侧重于因果驱动任务表现,而CV侧重于概念的抽象表示。
关键设计:论文的关键设计包括:1) 使用表征相似性分析(RSA)来量化不同输入格式下注意力头输出的相似性。RSA的具体实现方式(例如,使用的相似性度量)会影响CV的性能。2) 选择多少个注意力头来构建CV。选择过多的注意力头可能会引入噪声,而选择过少的注意力头可能无法捕捉到足够的概念信息。3) 如何组合选定的注意力头输出以形成最终的CV。可以使用简单的平均或加权平均,也可以使用更复杂的组合方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,函数向量(FV)在同分布任务上表现出色,而概念向量(CV)在跨问题类型和语言的分布外泛化方面更优。这表明,LLM确实包含抽象的概念表示,并且这些表示与驱动ICL性能的表示不同。具体性能提升数据未知。
🎯 应用场景
该研究成果可应用于提升大型语言模型在各种实际场景中的泛化能力,例如,在不同语言或不同问题类型下进行知识迁移和应用。通过使用概念向量,可以构建更加鲁棒和可靠的AI系统,从而更好地服务于教育、医疗、金融等领域。
📄 摘要(原文)
Do large language models (LLMs) represent concepts abstractly, i.e., independent of input format? We revisit Function Vectors (FVs), compact representations of in-context learning (ICL) tasks that causally drive task performance. Across multiple LLMs, we show that FVs are not fully invariant: FVs are nearly orthogonal when extracted from different input formats (e.g., open-ended vs. multiple-choice), even if both target the same concept. We identify Concept Vectors (CVs), which carry more stable concept representations. Like FVs, CVs are composed of attention head outputs; however, unlike FVs, the constituent heads are selected using Representational Similarity Analysis (RSA) based on whether they encode concepts consistently across input formats. While these heads emerge in similar layers to FV-related heads, the two sets are largely distinct, suggesting different underlying mechanisms. Steering experiments reveal that FVs excel in-distribution, when extraction and application formats match (e.g., both open-ended in English), while CVs generalize better out-of-distribution across both question types (open-ended vs. multiple-choice) and languages. Our results show that LLMs do contain abstract concept representations, but these differ from those that drive ICL performance.