Self-Commitment Latency: A Reward-Free Probe for Prompted Implicit Hacking

📄 arXiv: 2606.05625v1 📥 PDF

作者: Bonan Shen, Youting Wang, Dingyan Shang, Tao Ning

分类: cs.AI, cs.LG

发布日期: 2026-06-04


💡 一句话要点

提出自承诺延迟以解决隐式奖励黑客问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 隐式奖励黑客 自承诺延迟 语言模型 推理审计 性能评估 安全性 透明性

📋 核心要点

  1. 隐式奖励黑客难以审计,尤其是在推理看似正常的情况下,现有方法依赖于特定任务的奖励信号。
  2. 本文提出自承诺延迟作为一种新方法,测量推理上下文多早承诺于最终答案,提供了一种无需奖励信号的探测手段。
  3. 实验结果表明,带提示的上下文承诺显著早于诚实上下文,主要延迟指标AUROC达到0.878,整体性能更优。

📝 摘要(中文)

隐式奖励黑客在语言模型的推理过程中难以审计,尤其是当其思维链看似无害时。现有的验证器基础探测方法需要特定任务的奖励信号,而本文提出了一种弱输入替代方案——自承诺延迟,旨在测量提示推理上下文多早地承诺于模型的最终答案。通过在控制的GSM8K设置中评估该探测方法,结果显示带有答案提示的上下文比诚实上下文承诺得更早且不确定性更低。主要延迟指标的AUROC达到了0.878,支持的整体曲线摘要在承诺范围和平均未承诺质量上分别达到了0.926和0.904。这些结果表明,具有快捷方式的推理上下文可以在没有奖励模型、外部评判者或训练分类器的情况下留下早期行为承诺的特征。

🔬 方法详解

问题定义:本文解决隐式奖励黑客的审计难题,现有方法依赖于特定任务的奖励信号,限制了其适用性。

核心思路:提出自承诺延迟,通过测量推理上下文多早承诺于最终答案,提供了一种无需奖励模型的探测方法。

技术框架:整体流程包括提示上下文的构建、承诺延迟的测量和性能评估,主要模块包括数据集准备、模型推理和结果分析。

关键创新:自承诺延迟的提出是本文的核心创新,与现有方法相比,它不依赖于特定的奖励信号,能够更广泛地应用于不同任务。

关键设计:在实验中,设置了不同的提示条件,并使用AUROC作为主要性能指标,确保了结果的稳定性和可靠性。实验中还考虑了不同阈值下的表现。

📊 实验亮点

实验结果显示,带有答案提示的上下文在承诺时间上显著早于诚实上下文,主要延迟指标的AUROC达到了0.878,整体性能在承诺范围和平均未承诺质量上分别达到了0.926和0.904,表明该方法在探测隐式奖励黑客方面具有显著优势。

🎯 应用场景

该研究的潜在应用领域包括语言模型的安全性审计、人工智能系统的透明性提升以及对模型行为的深入理解。通过提供一种新的探测手段,能够帮助开发者识别和修正模型中的潜在问题,从而提高系统的可靠性和安全性。

📄 摘要(原文)

Implicit reward hacking is hard to audit when a language model's chain of thought appears benign: a final answer may be anchored by a prompt shortcut while the written reasoning still resembles ordinary problem solving. Verifier-based probes expose such behavior by measuring how early truncated reasoning contexts obtain high reward, but require a task-specific reward signal. This paper proposes a weaker-input alternative, self-commitment latency, which measures how early a prompted reasoning context commits to the model's own final answer. We evaluate the probe in a controlled paired GSM8K setting using Qwen2.5-3B-Instruct-4bit, comparing ordinary prompts with prompts that include an answer hint. Hinted contexts commit substantially earlier and with lower uncertainty than honest contexts. The primary latency metric, first-commitment latency at threshold 0.8, reaches AUROC 0.878; supporting whole-curve summaries reach AUROC 0.926 for commitment range and 0.904 for mean uncommitted mass. The signal is stronger when both prompt conditions answer correctly and remains stable across thresholds. These results show that shortcut-available reasoning contexts can leave an early behavioral commitment signature detectable without a reward model, external judge, or trained classifier.