Revisiting In-context Learning Inference Circuit in Large Language Models

作者: Hakaze Cho, Mariko Kato, Yoshihiro Sakai, Naoya Inoue

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-10-06 (更新: 2025-02-20)

备注: 37 pages, 41 figures, 8 tables. ICLR 2025 Accepted. Camera-ready Version

💡 一句话要点

提出ICL推理电路模型，解释并统一大型语言模型中的上下文学习现象。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 上下文学习 大型语言模型 推理电路 Few-shot学习 内部机制

📋 核心要点

现有研究对大型语言模型上下文学习(ICL)的内部机制探索不足，难以解释所有推理现象。
论文提出一个综合的ICL推理电路，将ICL过程分解为编码、融合、检索和复制三个主要操作。
实验表明，该推理电路能够捕获并统一ICL过程中的多种现象，消融实验也验证了其主导地位。

📝 摘要（中文）

本文旨在探索大型语言模型中上下文学习(ICL)的内部机制。现有工作难以全面捕捉大型语言模型中的所有推理现象。因此，本文提出了一个综合的推理电路来建模ICL的推理动态，并解释观察到的ICL现象。具体来说，我们将ICL推理分为三个主要操作：（1）输入文本编码：语言模型将每个输入文本（包括演示和查询）编码成隐藏状态中的线性表示，其中包含解决ICL任务的足够信息。（2）语义融合：语言模型将演示的编码表示与其对应的标签token融合，以产生标签和演示的联合表示。（3）特征检索和复制：语言模型在任务子空间上搜索与查询表示相似的演示联合表示，并将搜索到的表示复制到查询中。然后，语言模型头在一定程度上捕获这些复制的标签表示，并将它们解码为预测标签。通过仔细的测量，所提出的推理电路成功地捕获并统一了ICL过程中观察到的许多零散现象，使其成为对ICL推理过程的全面而实用的解释。此外，通过禁用所提出的步骤进行消融分析会严重损害ICL性能，表明所提出的推理电路是一种主导机制。此外，我们确认并列出了一些与所提出的电路并行解决ICL任务的旁路机制。

🔬 方法详解

问题定义：现有工作难以全面解释大型语言模型中上下文学习(ICL)的内部机制，无法捕捉所有推理现象。这阻碍了我们对ICL工作原理的深入理解，也限制了我们优化ICL性能的能力。

核心思路：论文的核心思路是将ICL推理过程分解为三个主要操作：输入文本编码、语义融合以及特征检索和复制。通过分析这三个操作，可以更清晰地理解信息如何在模型中流动，以及如何产生最终的预测结果。这种分解方法有助于揭示ICL的内在机制。

技术框架：该研究提出的ICL推理电路包含以下三个主要阶段： 1. 输入文本编码：语言模型将输入文本（包括演示和查询）编码为隐藏状态中的线性表示。 2. 语义融合：语言模型将演示的编码表示与其对应的标签token融合，生成标签和演示的联合表示。 3. 特征检索和复制：语言模型在任务子空间上搜索与查询表示相似的演示联合表示，并将搜索到的表示复制到查询中。语言模型头捕获这些复制的标签表示，并解码为预测标签。

关键创新：该研究的关键创新在于提出了一个综合的ICL推理电路，能够统一解释ICL过程中的多种现象。与以往的研究相比，该电路更加全面，能够更好地捕捉大型语言模型中的推理动态。此外，该研究还识别出了一些与该电路并行工作的旁路机制。

关键设计：论文通过仔细的测量和消融实验来验证所提出的推理电路。消融实验通过禁用电路中的不同步骤来评估其对ICL性能的影响。此外，论文还分析了不同任务子空间上的特征检索和复制过程，以深入了解ICL的工作原理。具体的参数设置、损失函数和网络结构等细节取决于所使用的具体语言模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提出的推理电路能够成功捕获并统一ICL过程中的多种现象。消融实验显示，禁用电路中的关键步骤会导致ICL性能显著下降，验证了该电路的主导地位。此外，研究还发现了与该电路并行工作的旁路机制，为进一步理解ICL提供了新的视角。

🎯 应用场景

该研究成果可应用于提升大型语言模型的上下文学习能力，例如优化prompt设计、提高few-shot学习效果。理解ICL的内在机制有助于开发更高效、更可控的语言模型，并促进其在自然语言处理任务中的广泛应用，例如文本生成、机器翻译和问答系统。

📄 摘要（原文）

In-context Learning (ICL) is an emerging few-shot learning paradigm on Language Models (LMs) with inner mechanisms un-explored. There are already existing works describing the inner processing of ICL, while they struggle to capture all the inference phenomena in large language models. Therefore, this paper proposes a comprehensive circuit to model the inference dynamics and try to explain the observed phenomena of ICL. In detail, we divide ICL inference into 3 major operations: (1) Input Text Encode: LMs encode every input text (in the demonstrations and queries) into linear representation in the hidden states with sufficient information to solve ICL tasks. (2) Semantics Merge: LMs merge the encoded representations of demonstrations with their corresponding label tokens to produce joint representations of labels and demonstrations. (3) Feature Retrieval and Copy: LMs search the joint representations of demonstrations similar to the query representation on a task subspace, and copy the searched representations into the query. Then, language model heads capture these copied label representations to a certain extent and decode them into predicted labels. Through careful measurements, the proposed inference circuit successfully captures and unifies many fragmented phenomena observed during the ICL process, making it a comprehensive and practical explanation of the ICL inference process. Moreover, ablation analysis by disabling the proposed steps seriously damages the ICL performance, suggesting the proposed inference circuit is a dominating mechanism. Additionally, we confirm and list some bypass mechanisms that solve ICL tasks in parallel with the proposed circuit.

Revisiting In-context Learning Inference Circuit in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理