Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

📄 arXiv: 2507.09875v2 📥 PDF

作者: Qinyuan Ye, Robin Jia, Xiang Ren

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-14 (更新: 2025-09-27)

备注: Code: https://github.com/INK-USC/function-induction


💡 一句话要点

通过可解释性分析揭示大语言模型在Off-by-One加法任务中的泛化机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 可解释性 任务泛化 上下文学习 函数归纳

📋 核心要点

  1. 大语言模型展现了上下文学习能力,但其任务泛化的内部机制尚不明确,面临可解释性挑战。
  2. 论文提出通过分析模型在差一加法任务中的内部计算,揭示其泛化机制。
  3. 研究发现了一种函数归纳机制,并证明其可用于更广泛的任务,提升了模型的可复用性。

📝 摘要(中文)

大型语言模型展现出通过上下文学习执行未见任务的惊人能力。然而,模型内部驱动这种任务级泛化的机制仍然不清楚。本文以差一加法(Off-by-One Addition,例如1+1=3,2+2=5,3+3=?)为例,这是一个包含意外的+1函数的两步反事实任务,来研究这个问题。利用电路风格的可解释性技术,如路径修补(path patching),我们分析了模型性能背后的内部计算,并提出了三个关键发现。首先,我们揭示了一种函数归纳机制,解释了模型从标准加法到差一加法的泛化。这种机制类似于先前工作中发现的归纳头机制的结构,并将其提升到更高的抽象层次。其次,我们表明+1函数的归纳是由多个并行的注意力头控制的,每个注意力头发出+1函数的不同部分。最后,我们发现这种函数归纳机制被重用于更广泛的任务中,包括合成任务(如移位的多项选择问答)和算法任务(如八进制加法)。总的来说,我们的发现更深入地了解了语言模型中可重用和可组合的结构如何实现任务级泛化。

🔬 方法详解

问题定义:现有的大语言模型虽然展现出强大的任务泛化能力,但其内部实现机制仍然是一个黑盒。特别是,模型如何从已知的任务泛化到未知的、略有不同的任务,缺乏深入的理解。论文聚焦于差一加法任务,旨在揭示模型如何学习并应用这种非标准的加法规则,从而理解其任务泛化的内在机制。现有方法难以解释这种泛化能力,缺乏对模型内部计算过程的细粒度分析。

核心思路:论文的核心思路是通过可解释性技术,特别是电路风格的可解释性分析,来剖析模型在执行差一加法任务时的内部计算过程。通过分析模型内部的激活、注意力机制等,试图找到模型学习和应用差一加法规则的关键模块和机制。这种方法旨在揭示模型如何将已知的加法知识迁移到差一加法任务,并识别出负责这种迁移的关键组件。

技术框架:论文主要采用路径修补(path patching)等电路风格的可解释性技术。具体流程包括:1) 设计差一加法任务的输入样本;2) 使用大语言模型进行推理,观察其输出结果;3) 利用路径修补技术,系统性地扰动模型内部的激活,观察对输出结果的影响;4) 分析注意力头、MLP层等关键模块的激活模式,识别出负责学习和应用差一加法规则的组件;5) 将识别出的组件应用于其他任务,验证其泛化能力。

关键创新:论文最重要的技术创新在于揭示了一种函数归纳机制,该机制类似于先前工作中发现的归纳头机制,但提升到了更高的抽象层次。这种机制能够解释模型如何从标准加法泛化到差一加法,并能够被重用于其他任务。此外,论文还发现+1函数的归纳是由多个并行的注意力头控制的,每个注意力头负责发出+1函数的不同部分。与现有方法相比,该研究提供了对模型内部计算过程更细粒度、更深入的理解。

关键设计:论文的关键设计包括:1) 精心设计的差一加法任务,能够有效地测试模型的泛化能力;2) 使用路径修补技术,能够系统性地扰动模型内部的激活,并观察对输出结果的影响;3) 对注意力头、MLP层等关键模块的激活模式进行深入分析,识别出负责学习和应用差一加法规则的组件;4) 将识别出的组件应用于其他任务,验证其泛化能力。具体参数设置、损失函数、网络结构等细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究揭示了一种函数归纳机制,解释了模型从标准加法到差一加法的泛化过程。实验表明,该机制可以被重用于其他任务,如移位的多项选择问答和八进制加法,验证了其泛化能力。具体性能数据和提升幅度未在摘要中提及,属于未知信息。

🎯 应用场景

该研究成果可应用于提升大语言模型的可解释性和可控性。通过理解模型内部的泛化机制,可以更好地设计模型架构和训练方法,使其在各种任务中表现更稳定、更可靠。此外,该研究也有助于开发更高效的迁移学习方法,使模型能够更快地适应新的任务。

📄 摘要(原文)

Large language models demonstrate the intriguing ability to perform unseen tasks via in-context learning. However, it remains unclear what mechanisms inside the model drive such task-level generalization. In this work, we approach this question through the lens of off-by-one addition (i.e., 1+1=3, 2+2=5, 3+3=?), a two-step, counterfactual task with an unexpected +1 function as a second step. Leveraging circuit-style interpretability techniques such as path patching, we analyze the models' internal computations behind their performance and present three key findings. First, we uncover a function induction mechanism that explains the model's generalization from standard addition to off-by-one addition. This mechanism resembles the structure of the induction head mechanism found in prior work and elevates it to a higher level of abstraction. Second, we show that the induction of the +1 function is governed by multiple attention heads in parallel, each of which emits a distinct piece of the +1 function. Finally, we find that this function induction mechanism is reused in a broader range of tasks, including synthetic tasks such as shifted multiple-choice QA and algorithmic tasks such as base-8 addition. Overall, our findings offer deeper insights into how reusable and composable structures within language models enable task-level generalization.