Training Deliberative Monitors for Black-Box Scheming Detection

📄 arXiv: 2605.29601v1 📥 PDF

作者: Aditya Sinha, Akshat Naik, Victor Gillioz, Simon Storf, Kilian Merkelbach, Rich Barton-Cooper, Axel Højmark, Marius Hobbhahn

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-28


💡 一句话要点

训练行动监督器以检测黑盒智能体的阴谋行为

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 智能体监控 阴谋检测 黑盒模型 审议对齐 模仿学习

📋 核心要点

  1. 现有智能体监控方法依赖内部信息或昂贵的前沿模型,限制了其在实际部署中的可用性和成本效益。
  2. 论文提出一种基于行动的审议监控器,通过模仿学习和强化学习,训练小型开放权重模型来检测阴谋行为。
  3. 实验表明,该方法在多个数据集上优于低成本前沿模型,并在成本效益上与更强大的前沿模型竞争。

📝 摘要(中文)

随着自主智能体执行现实世界任务的能力不断增强,区分阴谋行为和良性任务执行可能成为一个核心的AI控制问题。现有的监督器通常依赖于思维链访问、内部激活或提示式前沿模型,但在部署中这些方法可能不可用、不可靠或成本高昂。本文研究了仅基于行动的审议监督器:训练较小的开放权重模型,以从智能体轨迹中检测阴谋和破坏行为,而无需访问被监控智能体的推理或模型内部结构。该方法受到审议对齐的启发,使用阴谋规范从前沿教师模型中提取结构化理由,用单独的判断器过滤这些理由,并将最高质量的理由提炼成具有监督微调和强化学习的开放权重监督器。我们在五个数据集上进行训练,并在六个分布外智能体未对齐基准上进行评估。结果表明,将我们的方法应用于Qwen3.5-27B,比所有低成本提示式前沿模型(Gemini 3.1 Flash-Lite、GPT-5.4 Nano和Claude Haiku 4.5)以及Gemini 2.5 Pro实现了更高的性能,同时实现了更低的边际推理成本。更强的提示式前沿模型(Gemini 3.1 Pro、GPT-5.4、Claude Sonnet 4.6和Claude Opus 4.6)实现了更高的性能,但边际推理成本高出约16-34倍。我们训练的几个监督器位于我们评估的监督器的经验成本-性能帕累托前沿上,为提示式前沿模型提供了实用的低成本、低FPR替代方案。

🔬 方法详解

问题定义:现有智能体监控方法,如依赖思维链、内部激活或提示式前沿模型,存在访问受限、成本高昂等问题,难以有效检测黑盒智能体的阴谋行为。因此,需要一种低成本、可行的方案,仅通过观察智能体的行动轨迹来识别潜在的恶意行为。

核心思路:论文的核心思路是训练一个小型、开放权重的“审议监控器”,该监控器仅基于智能体的行动序列来判断其是否在进行阴谋活动。这种方法避免了对智能体内部状态的访问,使其适用于黑盒场景。通过模仿学习和强化学习,将大型前沿模型的推理能力“蒸馏”到小型监控器中。

技术框架:整体框架包含以下几个主要阶段:1) 理由生成:使用一个大型前沿模型(教师模型)对智能体的行动轨迹进行分析,并生成结构化的理由,解释为什么这些行动可能构成阴谋。2) 理由过滤:使用一个独立的判断器来评估教师模型生成的理由的质量,过滤掉不准确或不相关的理由。3) 监控器训练:使用高质量的理由作为训练数据,通过监督微调和强化学习来训练小型监控器。监控器接收智能体的行动轨迹作为输入,并输出一个概率值,表示该轨迹是否包含阴谋行为。

关键创新:最重要的技术创新点在于使用“审议对齐”的思想,将大型前沿模型的推理能力转移到小型、开放权重的监控器中。与直接使用前沿模型作为监控器相比,这种方法显著降低了推理成本,并提高了部署的灵活性。此外,仅依赖行动轨迹进行判断,使其适用于黑盒智能体的监控。

关键设计:在理由生成阶段,使用精心设计的提示语来引导教师模型生成结构化的理由。在理由过滤阶段,使用一个训练好的分类器来判断理由的质量。在监控器训练阶段,使用交叉熵损失函数进行监督微调,并使用策略梯度方法进行强化学习,以优化监控器的性能。具体的网络结构和超参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用该方法训练的Qwen3.5-27B监控器在多个分布外数据集上优于低成本的提示式前沿模型(Gemini 3.1 Flash-Lite、GPT-5.4 Nano和Claude Haiku 4.5),并且在性能上与Gemini 2.5 Pro相当,同时显著降低了推理成本。部分训练的监控器在成本-性能帕累托前沿上,为提示式前沿模型提供了低成本、低FPR的替代方案。

🎯 应用场景

该研究成果可应用于各种自主智能体的安全监控,例如自动驾驶汽车、机器人助手和金融交易系统。通过部署低成本的行动监督器,可以有效检测潜在的恶意行为,保障系统的安全性和可靠性。未来,该方法可以扩展到更复杂的场景,例如多智能体系统和人机协作环境。

📄 摘要(原文)

As autonomous agents become more capable of performing real-world tasks, distinguishing scheming behavior from benign task pursuit may become a central AI control problem. Existing monitors often rely on chain-of-thought access or internal activations, or use prompted frontier models, all of which can be unavailable, unreliable or expensive in deployment. In this work, we study action-only deliberative monitors: smaller open-weight models trained to detect scheming and sabotage from agentic trajectories without accessing the monitored agent's reasoning or model internals. Our method, inspired by deliberative alignment, uses a scheming specification to elicit structured rationales from a frontier teacher, filters them with a separate judge, and distills the highest-quality rationales into open-weight monitors with supervised fine-tuning and reinforcement learning. We train on five datasets, and evaluate across six out-of-distribution agentic misalignment benchmarks. We show that applying our method to Qwen3.5-27B yields higher performance than all low-cost frontier models as prompted monitors (Gemini 3.1 Flash-Lite, GPT-5.4 Nano, and Claude Haiku 4.5) and than Gemini 2.5 Pro, while also achieving lower marginal inference cost (token-metered USD per 1,000 evaluations). Stronger prompted frontier monitors (Gemini 3.1 Pro, GPT-5.4, Claude Sonnet 4.6, and Claude Opus 4.6) achieve higher performance but at roughly $16$--$34\times$ higher marginal inference cost. Several of our trained monitors are positioned on the empirical cost--performance Pareto frontier among the monitors we evaluate, providing practical low-cost, low-FPR alternatives to prompted frontier models.