Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers
作者: Adam Karvonen, James Chua, Clément Dumas, Kit Fraser-Taliente, Subhash Kantamneni, Julian Minder, Euan Ong, Arnab Sen Sharma, Daniel Wen, Owain Evans, Samuel Marks
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-12-17 (更新: 2026-01-06)
备注: 36 pages
💡 一句话要点
提出Activation Oracles,通过训练LLM解释激活值,实现通用激活解释器。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 激活值解释 大型语言模型 可解释性 自然语言理解 LatentQA Activation Oracles 模型调试 安全分析
📋 核心要点
- 现有LLM激活值解释方法复杂且专门化,缺乏通用性和可解释性。
- 提出Activation Oracles (AOs),训练LLM直接接收激活值并用自然语言回答问题。
- 实验表明,AOs在多个下游任务中表现优异,甚至超越白盒基线,展现了良好的泛化能力。
📝 摘要(中文)
大型语言模型(LLM)的激活值难以理解,现有技术通常采用复杂且专门的方法进行解释。本文提出了一种更简单的方法,称为LatentQA:训练LLM直接接收LLM激活值作为输入,并用自然语言回答关于激活值的任意问题。与以往工作侧重于狭窄的任务设置不同,本文采取了一种通用的视角,在远超分布范围外的设置中评估了LatentQA训练的模型,称之为Activation Oracles (AOs),并研究了性能如何随训练数据多样性而扩展。研究发现,AOs可以恢复微调到模型中的信息(例如,传记知识或恶意倾向),而这些信息并未出现在输入文本中,尽管从未接受过来自微调模型的激活值训练。主要评估包括四个下游任务,可以与先前的白盒和黑盒技术进行比较。结果表明,即使是经过狭窄训练的LatentQA模型也能很好地泛化,并且添加额外的训练数据集(例如分类任务和自监督上下文预测任务)可以带来持续的改进。在所有四个任务中,最佳AOs与白盒基线相匹配或超过,并且在四个任务中的三个上超过了最佳整体基线。这些结果表明,回答自然语言查询的多样化训练赋予了一种通用能力,可以口头表达关于LLM激活值的信息。
🔬 方法详解
问题定义:现有方法难以理解LLM的激活值,需要针对特定任务设计复杂的解释方法,缺乏通用性和可迁移性。这些方法通常是任务相关的,无法提供对LLM内部状态的全面理解。因此,需要一种通用的方法来解释LLM的激活值,使其能够回答关于激活值的各种问题。
核心思路:本文的核心思路是将LLM训练成一个“激活值预言机”(Activation Oracle),使其能够接收LLM的激活值作为输入,并用自然语言回答关于这些激活值的各种问题。通过这种方式,可以将激活值的解释问题转化为一个自然语言理解和生成问题,从而利用LLM强大的语言能力来理解和解释激活值。
技术框架:整体框架包括以下几个主要步骤:1) 收集LLM的激活值数据,这些数据来自不同的任务和模型。2) 构建一个训练数据集,其中包含激活值和对应的自然语言问题和答案。3) 使用这些数据训练一个LLM,使其能够接收激活值作为输入,并生成对应的自然语言答案。4) 在下游任务中评估训练好的LLM的性能,例如,判断激活值是否包含特定信息,或者预测激活值对应的上下文。
关键创新:最重要的创新点在于将激活值的解释问题转化为一个自然语言理解和生成问题,从而利用LLM强大的语言能力来理解和解释激活值。与现有方法相比,该方法更加通用和可迁移,可以应用于不同的任务和模型。此外,该方法还可以提供更加自然和易于理解的解释,从而帮助研究人员更好地理解LLM的内部状态。
关键设计:关键设计包括:1) 训练数据的多样性,包括来自不同任务和模型的激活值。2) 自然语言问题和答案的设计,需要涵盖激活值的各个方面。3) LLM的选择和训练,需要选择一个具有足够语言能力和泛化能力的LLM,并使用合适的训练方法进行训练。具体而言,使用了LatentQA框架,并尝试了不同的训练数据集,包括分类任务和自监督上下文预测任务。损失函数采用标准的语言模型损失函数,网络结构则基于现有的LLM架构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过多样化训练的Activation Oracles在四个下游任务中表现出色,与白盒基线相匹配或超过,并且在四个任务中的三个上超过了最佳整体基线。即使是经过狭窄训练的LatentQA模型也能很好地泛化。添加额外的训练数据集(例如分类任务和自监督上下文预测任务)可以带来持续的改进。
🎯 应用场景
该研究成果可应用于模型调试、安全分析和知识发现等领域。例如,可以利用Activation Oracles来诊断模型错误的原因,检测模型是否存在恶意倾向,或者发现模型中隐藏的知识。此外,该技术还可以用于提高模型的可解释性,帮助用户更好地理解模型的行为。
📄 摘要(原文)
Large language model (LLM) activations are notoriously difficult to understand, with most existing techniques using complex, specialized methods for interpreting them. Recent work has proposed a simpler approach known as LatentQA: training LLMs to directly accept LLM activations as inputs and answer arbitrary questions about them in natural language. However, prior work has focused on narrow task settings for both training and evaluation. In this paper, we instead take a generalist perspective. We evaluate LatentQA-trained models, which we call Activation Oracles (AOs), in far out-of-distribution settings and examine how performance scales with training data diversity. We find that AOs can recover information fine-tuned into a model (e.g., biographical knowledge or malign propensities) that does not appear in the input text, despite never being trained with activations from a fine-tuned model. Our main evaluations are four downstream tasks where we can compare to prior white- and black-box techniques. We find that even narrowly-trained LatentQA models can generalize well, and that adding additional training datasets (such as classification tasks and a self-supervised context prediction task) yields consistent further improvements. Our best AOs match or exceed white-box baselines on all four tasks and the best overall baseline on 3 of 4. These results suggest that diversified training to answer natural-language queries imparts a general capability to verbalize information about LLM activations.