Can Input Attributions Explain Inductive Reasoning in In-Context Learning?

📄 arXiv: 2412.15628v5 📥 PDF

作者: Mengyu Ye, Tatsuki Kuribayashi, Goro Kobayashi, Jun Suzuki

分类: cs.CL

发布日期: 2024-12-20 (更新: 2025-07-09)

备注: Findings of ACL 2025


💡 一句话要点

研究输入归因方法能否解释大语言模型上下文学习中的归纳推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文学习 输入归因 可解释性 归纳推理 大语言模型

📋 核心要点

  1. 大型语言模型上下文学习中,理解哪些示例影响了模型决策是一个重要且具有挑战性的问题。
  2. 论文设计合成归纳推理任务,其中关键示例消除歧义,考察输入归因方法能否追踪推理过程。
  3. 实验发现,简单的输入归因方法效果更好,且模型越大,基于梯度的归因方法越难解释ICL。

📝 摘要(中文)

理解神经模型内部运作过程一直是一个挑战。在大语言模型(LLM)和上下文学习(ICL)时代,这一挑战依然存在。例如,ICL带来了一个新的问题,即如何解释few-shot示例中哪些示例对识别/解决任务做出了贡献。为此,本文设计了受心理语言学中常用泛化测试启发的合成诊断任务,用于归纳推理。在这些任务中,大多数上下文示例对于其潜在规则是模糊的,只有一个关键示例可以消除歧义。本文旨在研究传统的输入归因(IA)方法是否能够追踪这种推理过程,即在ICL中识别出有影响力的示例。实验结果表明,某些简单的IA方法效果最好,并且模型越大,使用基于梯度的IA方法解释ICL通常越困难。

🔬 方法详解

问题定义:论文旨在解决如何解释大型语言模型在上下文学习(ICL)中进行归纳推理的过程。现有的方法难以确定在few-shot示例中,哪些示例对模型最终的预测结果产生了关键影响。理解这种影响对于提升模型的可解释性和可靠性至关重要。

核心思路:论文的核心思路是通过设计合成的诊断任务来模拟归纳推理过程,并使用输入归因(IA)方法来识别对模型决策影响最大的示例。通过控制任务的难度和关键示例的存在,可以更清晰地评估IA方法的效果。

技术框架:整体框架包括以下几个步骤:1) 设计合成的归纳推理任务,其中包含多个上下文示例和一个需要推理的问题;2) 使用大型语言模型进行上下文学习,并得到预测结果;3) 应用不同的输入归因方法,计算每个上下文示例对预测结果的贡献度;4) 分析归因结果,判断IA方法是否能够准确识别出关键示例。

关键创新:论文的关键创新在于将心理语言学中的泛化测试思想引入到大型语言模型的可解释性研究中,设计了专门用于诊断归纳推理能力的合成任务。此外,论文还比较了多种输入归因方法在ICL场景下的表现,并发现了一些有趣的现象,例如简单的IA方法可能比复杂的基于梯度的方法更有效。

关键设计:论文设计了多种合成任务,例如规则学习任务,其中大部分上下文示例是模糊的,只有一个示例能够明确规则。论文比较了多种输入归因方法,包括梯度积分、SmoothGrad等。实验中,使用了不同规模的大型语言模型,并评估了IA方法识别关键示例的准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在合成的归纳推理任务中,某些简单的输入归因方法(IA)表现优于复杂的基于梯度的方法。此外,研究发现,随着模型规模的增大,使用基于梯度的IA方法解释ICL变得更加困难。这些发现为选择合适的IA方法以及理解大型语言模型的推理过程提供了重要的参考。

🎯 应用场景

该研究成果可应用于提升大型语言模型的可解释性和可靠性。通过理解模型在上下文学习中的推理过程,可以更好地诊断模型的潜在问题,并进行针对性的改进。此外,该研究还可以帮助用户更好地理解模型的决策依据,从而提高用户对模型的信任度。未来,该方法可以扩展到更复杂的推理任务和真实场景中。

📄 摘要(原文)

Interpreting the internal process of neural models has long been a challenge. This challenge remains relevant in the era of large language models (LLMs) and in-context learning (ICL); for example, ICL poses a new issue of interpreting which example in the few-shot examples contributed to identifying/solving the task. To this end, in this paper, we design synthetic diagnostic tasks of inductive reasoning, inspired by the generalization tests typically adopted in psycholinguistics. Here, most in-context examples are ambiguous w.r.t. their underlying rule, and one critical example disambiguates it. The question is whether conventional input attribution (IA) methods can track such a reasoning process, i.e., identify the influential example, in ICL. Our experiments provide several practical findings; for example, a certain simple IA method works the best, and the larger the model, the generally harder it is to interpret the ICL with gradient-based IA methods.