Evaluation Awareness in Language Models Has Limited Effect on Behaviour

📄 arXiv: 2605.05835v1 📥 PDF

作者: Amelie Knecht, Lucas Florin, Thilo Hagendorff

分类: cs.CL, cs.CY

发布日期: 2026-05-07

备注: 29 pages, 14 figures


💡 一句话要点

实证研究表明:大型推理模型中的“评估意识”对模型行为的影响极其有限

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型推理模型 思维链 模型对齐 AI安全性 因果推断 评估偏差

📋 核心要点

  1. 核心问题:学界担忧模型在思维链中表现出的“评估意识”会导致其为了迎合评估标准而产生策略性偏移,从而掩盖真实能力或安全性。
  2. 方法要点:通过在线采样对比与离线预填充干预两种实验范式,系统性地量化了评估意识对模型在多维度基准测试中输出行为的因果影响。
  3. 实验效果:研究发现VEA对模型行为的改变效应极小,证明了评估意识并非导致模型策略性行为或对齐失效的主要驱动因素。

📝 摘要(中文)

大型推理模型(LRMs)有时会在思维链(CoT)中提及自己正处于被评估的状态。研究人员担心这种言语化的评估意识(VEA)会导致模型采取策略性行为,通过优化感知到的评估标准来调整输出,例如使模型表现得比实际更安全。然而,VEA是否真的产生这种影响尚不明确。本文针对开源LRMs,在安全性、对齐、道德推理和政治倾向等基准测试中进行了验证。研究采用了在线策略(对比自发产生VEA与未产生VEA的CoT)和离线策略(通过模型预填充技术注入或移除VEA语句)。实验结果显示,VEA对模型行为的影响有限:注入VEA几乎无影响(ω≤0.06),移除VEA仅导致微小偏移(ω≤0.12),而自发产生的VEA对答案分布的影响最大仅为3.7个百分点(ω≤0.31)。这些发现提示我们在将高VEA率解读为策略性行为或对齐篡改的证据时需保持谨慎,评估意识带来的安全风险可能低于现有文献的预期。

🔬 方法详解

问题定义:研究旨在量化大型推理模型中“言语化评估意识”(VEA)的因果效应。现有研究假设模型若意识到被评估,会通过调整思维链内容来操纵输出,但缺乏严谨的实证支持,导致对模型安全性和对齐质量的评估存在潜在误读。

核心思路:通过对比实验验证VEA与模型输出行为之间的因果关系。如果VEA是策略性行为的诱因,那么人为注入或移除VEA应显著改变模型的回答分布;若影响微乎其微,则说明VEA更多是模型推理过程中的一种“副产品”而非策略性操纵。

技术框架:研究分为在线(On-policy)和离线(Off-policy)两部分。在线实验通过多次采样同一问题的不同CoT,对比包含与不包含VEA的样本;离线实验利用模型预填充(Prefilling)功能,强制在CoT中插入或剔除评估相关语句,随后进行重采样以观察输出变化。

关键创新:引入了因果干预视角来解构模型内部的“元认知”表现。通过主动干预思维链内容,将模型自发的“评估意识”与模型最终的决策行为解耦,从而规避了相关性分析中的混淆变量。

关键设计:采用效应量指标ω(Omega)来量化行为偏移程度。实验覆盖了安全性、道德推理及政治倾向等多个敏感领域,确保了结论在不同任务场景下的泛化性与鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,VEA对模型行为的干预效应极低。在注入VEA的情况下,效应量ω≤0.06;移除VEA时ω≤0.12;即使是模型自发产生的VEA,对答案分布的影响也仅在3.7个百分点以内。这些数据有力地反驳了“评估意识会导致显著策略性行为”的假设。

🎯 应用场景

本研究为AI安全评估与对齐研究提供了重要参考。它表明,在评估模型安全性时,无需过度担忧模型因“意识到被测试”而产生的伪装行为。这有助于研究人员更客观地解读模型思维链,优化评估流程,并为构建更透明、可信的AI对齐机制提供理论支撑。

📄 摘要(原文)

Large reasoning models (LRMs) sometimes note in their chain of thought (CoT) that they may be under evaluation. Researchers worry that this verbalised evaluation awareness (VEA) causes models to adapt their outputs strategically, optimising for perceived evaluation criteria, which, for instance, can make models appear safer than they actually are. However, whether VEA actually has this effect is largely unknown. We tested this across open-weight LRMs and benchmarks covering safety, alignment, moral reasoning, and political opinion. We tested this both on-policy, sampling multiple CoTs per item and comparing those that spontaneously contained VEA against those that did not, and off-policy, using model prefilling to inject evaluation-aware sentences where missing and remove them where present, with subsequent resampling. VEA has limited effect on model behaviour: injecting VEA into CoTs produces near-zero effects ($ω\leq 0.06$), removing it causes small shifts ($ω\leq 0.12$) and spontaneously occurring VEA shifts answer distributions by at most 3.7 percentage points ($ω\leq 0.31$). Our findings call for caution when interpreting high VEA rates as evidence of strategic behaviour or alignment tampering. Evaluation awareness may pose a smaller safety risk than the current literature assumes.