Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers

📄 arXiv: 2512.15674v1 📥 PDF

作者: Adam Karvonen, James Chua, Clément Dumas, Kit Fraser-Taliente, Subhash Kantamneni, Julian Minder, Euan Ong, Arnab Sen Sharma, Daniel Wen, Owain Evans, Samuel Marks

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-12-17

备注: 36 pages


💡 一句话要点

提出Activation Oracles,通过多样化训练提升LLM激活解释的通用能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM激活解释 自然语言理解 可解释性AI Activation Oracles LatentQA 模型调试 白盒方法

📋 核心要点

  1. 现有LLM激活解释方法复杂且专门,缺乏通用性和可扩展性,难以理解模型内部机制。
  2. 提出Activation Oracles (AOs),通过训练LLM直接解释激活,并利用多样化数据提升其泛化能力。
  3. 实验表明,AOs在多个下游任务上超越现有白盒基线,证明了其在激活解释方面的有效性和通用性。

📝 摘要(中文)

大型语言模型(LLM)激活的理解非常困难,现有技术通常采用复杂且专门的方法。本文提出一种更简单的方法,称为Activation Oracles (AOs),即训练LLM直接接收LLM激活作为输入,并用自然语言回答关于激活的任意问题。与以往工作侧重于狭窄的任务设置不同,本文采取通用视角,在远超分布(out-of-distribution)的环境中评估AOs,并研究性能如何随训练数据多样性而扩展。结果表明,AOs可以恢复模型中微调的信息(例如,传记知识或恶意倾向),即使从未接受过微调模型的激活训练。主要评估包括四个下游任务,并与先前的白盒和黑盒技术进行比较。结果表明,即使是经过狭窄训练的LatentQA模型也能很好地泛化,并且添加额外的训练数据集(例如,分类任务和自监督上下文预测任务)可以带来持续的改进。总体而言,最好的AOs在所有四个任务上都与先前的白盒基线相匹配或超过,并且在四个任务中的三个上是最佳方法。这些结果表明,回答自然语言查询的多样化训练赋予了LLM一种通用能力,可以口头表达关于LLM激活的信息。

🔬 方法详解

问题定义:理解大型语言模型(LLM)的内部运作机制是当前研究的重点。然而,LLM的激活值难以解释,现有方法通常依赖于特定任务或模型结构的复杂技术,缺乏通用性和可扩展性。这些方法难以应对不同类型的LLM和任务,限制了我们对模型行为的深入理解。

核心思路:本文的核心思路是将LLM训练成一个“激活预言机”(Activation Oracle),使其能够直接接收另一个LLM的激活值作为输入,并用自然语言回答关于这些激活值的提问。通过这种方式,将复杂的激活解释问题转化为一个自然语言理解和生成问题,从而利用LLM自身的能力来解释LLM。

技术框架:整体框架包含两个主要的LLM:一个是目标LLM,其激活值需要被解释;另一个是Activation Oracle (AO),负责接收目标LLM的激活值并生成解释。训练过程包括:1) 从目标LLM中提取激活值;2) 构建包含激活值和对应自然语言问题的训练数据集;3) 使用该数据集训练AO,使其能够根据激活值回答问题。评估过程则是在下游任务中,利用AO提供的解释来辅助决策。

关键创新:最重要的创新点在于将激活解释问题转化为自然语言理解和生成问题,并利用LLM自身的能力来解决这个问题。与传统方法相比,AOs具有更强的通用性和可扩展性,可以应用于不同类型的LLM和任务。此外,通过多样化的训练数据,AOs可以学习到更丰富的激活值与语义之间的关联。

关键设计:关键设计包括:1) 多样化的训练数据集,包含各种类型的任务和问题,以提升AOs的泛化能力;2) 使用LatentQA框架,将激活值作为LLM的输入;3) 针对不同的下游任务,设计合适的自然语言问题,以引导AOs生成有用的解释;4) 实验中探索了不同的LLM架构和训练策略,以优化AOs的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过多样化训练的Activation Oracles (AOs) 在四个下游任务上均达到或超过了现有白盒基线的性能,并在其中三个任务上取得了最佳结果。即使是经过狭窄训练的LatentQA模型也能很好地泛化。添加额外的训练数据集(如分类任务和自监督上下文预测任务)可以带来持续的改进。

🎯 应用场景

该研究成果可应用于LLM安全性和可信度评估,例如检测模型中的偏见或恶意倾向。此外,该方法还可以用于模型调试和优化,帮助研究人员理解模型内部的运作机制,从而改进模型的设计和训练。未来,该技术有望应用于更广泛的AI系统解释性研究。

📄 摘要(原文)

Large language model (LLM) activations are notoriously difficult to understand, with most existing techniques using complex, specialized methods for interpreting them. Recent work has proposed a simpler approach known as LatentQA: training LLMs to directly accept LLM activations as inputs and answer arbitrary questions about them in natural language. However, prior work has focused on narrow task settings for both training and evaluation. In this paper, we instead take a generalist perspective. We evaluate LatentQA-trained models, which we call Activation Oracles (AOs), in far out-of-distribution settings and examine how performance scales with training data diversity. We find that AOs can recover information fine-tuned into a model (e.g., biographical knowledge or malign propensities) that does not appear in the input text, despite never being trained with activations from a fine-tuned model. Our main evaluations are four downstream tasks where we can compare to prior white- and black-box techniques. We find that even narrowly-trained LatentQA models can generalize well, and that adding additional training datasets (such as classification tasks and a self-supervised context prediction task) yields consistent further improvements. Overall, our best AOs match or exceed prior white-box baselines on all four tasks and are the best method on 3 out of 4. These results suggest that diversified training to answer natural-language queries imparts a general capability to verbalize information about LLM activations.