Is Evaluation Awareness Just Format Sensitivity? Limitations of Probe-Based Evidence under Controlled Prompt Structure

📄 arXiv: 2603.19426v1 📥 PDF

作者: Viliana Devbunova

分类: cs.CL, cs.AI

发布日期: 2026-03-19

备注: 10 pages, 5 tables, 2 figures. Accepted at ICLR 2026 Workshop "I Can't Believe It's Not Better"


💡 一句话要点

研究表明,基于探针的评估意识证据可能仅反映提示结构,而非模型真正的评估能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 评估意识 线性探针 提示工程 结构伪影

📋 核心要点

  1. 现有方法使用线性探针来评估大型语言模型的评估意识,但评估上下文与基准测试格式紧密相关。
  2. 该研究通过控制提示格式,使用受控数据集和诊断性重写,来分离评估上下文和表面结构。
  3. 实验表明,探针主要跟踪基准测试的结构,无法推广到自由形式的提示,质疑了现有探针方法的可靠性。

📝 摘要(中文)

先前的工作使用基准测试提示上的线性探针作为大型语言模型中评估意识的证据。由于评估上下文通常与基准测试的格式和类型纠缠在一起,因此不清楚基于探针的信号反映的是上下文还是表面结构。我们使用受控的2x2数据集和诊断性重写来测试这些信号是否在部分控制提示格式的情况下仍然存在。我们发现探针主要跟踪基准测试的规范结构,并且无法推广到独立于语言风格的自由形式提示。因此,标准的基于探针的方法无法可靠地将评估上下文与结构伪影区分开来,从而限制了现有结果的证据强度。

🔬 方法详解

问题定义:现有方法使用线性探针来评估大型语言模型的评估意识,但评估上下文通常与基准测试的格式和类型纠缠在一起。这使得我们难以确定探针信号真正反映的是模型对评估上下文的理解,还是仅仅对提示的表面结构(如格式和风格)的反应。现有方法的痛点在于无法有效区分评估上下文和结构伪影。

核心思路:该论文的核心思路是通过控制提示的格式,来解耦评估上下文和表面结构。具体来说,通过构建一个受控的数据集,并使用诊断性的重写技术,来观察探针信号在不同提示格式下的表现。如果探针信号仅仅反映了提示的表面结构,那么在改变提示格式后,探针信号应该会发生显著变化。反之,如果探针信号反映了模型对评估上下文的真正理解,那么在改变提示格式后,探针信号应该保持相对稳定。

技术框架:该研究的技术框架主要包括以下几个步骤:1.构建一个2x2的受控数据集,该数据集在两个维度上进行变化:评估上下文(存在/不存在)和提示格式(规范/自由形式)。2.使用线性探针来提取大型语言模型在不同提示下的表示。3.使用诊断性的重写技术来进一步控制提示的表面结构。4.分析探针信号在不同条件下的表现,以确定探针信号是否反映了评估上下文或表面结构。

关键创新:该论文的关键创新在于提出了一个受控的实验框架,用于研究基于探针的评估意识证据的可靠性。该框架通过控制提示的格式,有效地解耦了评估上下文和表面结构,从而能够更准确地评估探针信号的含义。与现有方法相比,该论文的方法更加严谨和可靠。

关键设计:该研究的关键设计包括:1.2x2受控数据集的设计,确保了评估上下文和提示格式的独立变化。2.线性探针的选择,线性探针是一种简单而有效的工具,用于提取大型语言模型的表示。3.诊断性重写技术的使用,进一步控制了提示的表面结构。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细说明,属于标准线性探针的使用。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,探针主要跟踪基准测试的规范结构,并且无法推广到自由形式的提示。这意味着现有的基于探针的方法可能高估了大型语言模型的评估意识。该研究强调了在评估大型语言模型时,需要更加谨慎地控制提示的格式,以避免结构伪影的影响。

🎯 应用场景

该研究成果对于评估大型语言模型的真实能力具有重要意义。它可以帮助研究人员更准确地评估模型是否真正理解了评估上下文,而不是仅仅对提示的表面结构做出反应。这对于开发更可靠、更值得信赖的人工智能系统至关重要,尤其是在需要模型进行复杂推理和决策的应用场景中。

📄 摘要(原文)

Prior work uses linear probes on benchmark prompts as evidence of evaluation awareness in large language models. Because evaluation context is typically entangled with benchmark format and genre, it is unclear whether probe-based signals reflect context or surface structure. We test whether these signals persist under partial control of prompt format using a controlled 2x2 dataset and diagnostic rewrites. We find that probes primarily track benchmark-canonical structure and fail to generalize to free-form prompts independent of linguistic style. Thus, standard probe-based methodologies do not reliably disentangle evaluation context from structural artifacts, limiting the evidential strength of existing results.