One Task Vector is not Enough: A Large-Scale Study for In-Context Learning

📄 arXiv: 2505.23911v1 📥 PDF

作者: Pavel Tikhonov, Ivan Oseledets, Elena Tutubalina

分类: cs.CL

发布日期: 2025-05-29


💡 一句话要点

研究表明,单任务向量不足以支持LLM的上下文学习,复杂任务需多向量表示。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文学习 任务向量 大型语言模型 少样本学习 分布式表示

📋 核心要点

  1. 现有上下文学习研究受限于小规模数据集,难以对任务向量进行全面分析。
  2. 论文提出使用多个子任务向量来表示复杂任务,而非单一任务向量。
  3. 实验表明,任务向量性能在中间层达到峰值,且有效性随任务类型变化。

📝 摘要(中文)

上下文学习(ICL)使大型语言模型(LLM)能够通过少量示例适应新任务,其中任务向量——特定的隐藏状态激活——被假设编码任务信息。现有研究受限于小规模基准测试,限制了全面分析。我们引入了QuiteAFew,这是一个包含3,096个多样化少样本任务的新数据集,每个任务有30个来自Alpaca数据集的输入-输出对。对Llama-3-8B在QuiteAFew上的实验表明:(1)任务向量性能在中间层(例如,第15层)达到峰值,(2)有效性因任务类型而异,以及(3)复杂任务依赖于多个、子任务特定的向量,而不是单个向量,表明分布式任务知识表示。

🔬 方法详解

问题定义:现有上下文学习方法通常假设单个任务向量足以编码整个任务的信息,这对于简单任务可能有效,但对于复杂任务,这种单一向量的表示能力可能不足,导致模型无法充分理解和执行任务。现有研究缺乏大规模数据集来验证这一假设。

核心思路:论文的核心思路是,复杂任务可能需要多个、子任务特定的向量来表示。每个向量编码任务的不同方面或子任务的信息。通过组合这些向量,模型可以更全面地理解和执行复杂任务。这种方法借鉴了分布式表示的思想,认为知识不是集中存储在单个神经元或向量中,而是分布在整个网络中。

技术框架:论文主要通过实验来验证其核心思路。首先,构建了一个大规模的少样本任务数据集QuiteAFew,包含3096个任务,每个任务包含30个输入-输出对。然后,使用Llama-3-8B模型在QuiteAFew数据集上进行实验,提取不同层的隐藏状态激活作为任务向量,并评估这些向量在不同任务上的性能。通过分析任务向量的性能与任务类型之间的关系,以及不同层任务向量的性能差异,来验证复杂任务需要多个子任务向量的假设。

关键创新:论文的关键创新在于提出了复杂任务需要多个子任务向量来表示的观点,并用大规模实验验证了这一观点。这与现有研究中普遍采用的单一任务向量假设不同,为上下文学习的研究提供了新的视角。此外,QuiteAFew数据集的构建也为后续研究提供了有价值的资源。

关键设计:论文的关键设计包括:(1) QuiteAFew数据集的构建,确保了任务的多样性和规模;(2) 使用Llama-3-8B模型作为实验平台,保证了实验结果的可靠性;(3) 通过分析不同层的隐藏状态激活来提取任务向量,并评估其性能;(4) 通过分析任务向量的性能与任务类型之间的关系,来验证复杂任务需要多个子任务向量的假设。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,任务向量的性能在中间层(例如,第15层)达到峰值,并且有效性因任务类型而异。更重要的是,复杂任务依赖于多个、子任务特定的向量,而不是单个向量,这为分布式任务知识表示提供了有力证据。QuiteAFew数据集的发布也为后续研究提供了宝贵的资源。

🎯 应用场景

该研究成果可应用于提升大型语言模型在复杂任务上的上下文学习能力,例如在多步骤推理、代码生成、复杂问答等领域。通过使用多个子任务向量,模型可以更好地理解和执行这些任务,从而提高性能和泛化能力。此外,该研究也为设计更有效的上下文学习方法提供了新的思路。

📄 摘要(原文)

In-context learning (ICL) enables Large Language Models (LLMs) to adapt to new tasks using few examples, with task vectors - specific hidden state activations - hypothesized to encode task information. Existing studies are limited by small-scale benchmarks, restricting comprehensive analysis. We introduce QuiteAFew, a novel dataset of 3,096 diverse few-shot tasks, each with 30 input-output pairs derived from the Alpaca dataset. Experiments with Llama-3-8B on QuiteAFew reveal: (1) task vector performance peaks at an intermediate layer (e.g., 15th), (2) effectiveness varies significantly by task type, and (3) complex tasks rely on multiple, subtask-specific vectors rather than a single vector, suggesting distributed task knowledge representation.