Towards mitigating information leakage when evaluating safety monitors

📄 arXiv: 2509.21344v1 📥 PDF

作者: Gerard Boxo, Aman Neelappa, Shivam Raval

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-09-16

备注: 14 pages, 4 figures


💡 一句话要点

提出评估安全监控器信息泄露的框架,并设计策略缓解泄露以提升评估可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息泄露 安全监控器 语言模型安全 欺骗检测 评估框架

📋 核心要点

  1. 现有白盒监控器评估易受信息泄露影响,导致评估结果虚高,无法准确反映监控器的真实性能。
  2. 论文提出系统评估框架,并设计内容过滤、分数过滤和提示蒸馏微调等策略,以缓解信息泄露。
  3. 实验表明,内容过滤能有效降低AUROC达30%,提示蒸馏微调虽能改进评估,但会降低监控器性能高达40%。

📝 摘要(中文)

白盒监控器通过分析模型内部信息,在检测大型语言模型中的潜在有害行为方面具有优势,例如计算成本更低,并能集成到分层防御系统中。然而,训练和评估这些监控器需要能够展示目标行为的响应样本,这些样本通常通过提示或微调获得。当用于引出行为的信息不可避免地泄漏到监控器摄取的数据中时,会带来挑战,从而夸大其有效性。本文提出了一个系统框架,用于评估监控器检测真实模型行为的能力,而不是表面上的引出伪影。此外,我们提出了三种新策略来评估监控器:内容过滤(从输入中删除与欺骗相关的文本)、分数过滤(仅聚合与任务相关的token)和提示蒸馏微调模型(训练模型在没有明确提示的情况下表现出欺骗行为)。以欺骗检测作为代表性案例研究,我们识别出两种会夸大监控器性能的泄露形式:来自明确请求有害行为的提示的引出泄露,以及来自模型口头表达其欺骗行为的推理泄露。通过在多个欺骗基准上的实验,我们应用了提出的缓解策略并测量了性能保持情况。对监控器的评估揭示了三个关键发现:(1)内容过滤是一种很好的缓解策略,可以平滑地消除引出信号,并可将探针AUROC降低30%;(2)分数过滤被发现可降低AUROC达15%,但不容易归因;(3)经过微调的模型可以改善监控器评估,但即使经过重新训练,也会将其性能降低高达40%。

🔬 方法详解

问题定义:现有白盒监控器在评估时,容易受到信息泄露的影响。用于诱导模型产生特定行为(如欺骗)的提示或微调数据,其包含的信息会不经意地进入监控器所分析的数据中,导致监控器检测到的并非模型自身的行为,而是提示或微调数据中的“伪影”。这使得评估结果偏高,无法真实反映监控器的性能。

核心思路:核心在于区分监控器检测到的信号是来自模型自身的行为,还是来自诱导过程中的信息泄露。通过设计不同的过滤策略,逐步消除泄露的信息,从而更准确地评估监控器的真实性能。同时,通过训练不依赖提示即可表现出目标行为的模型,来避免提示带来的信息泄露。

技术框架:论文提出了一个系统性的评估框架,包含以下几个主要步骤: 1. 基准测试:在标准的欺骗检测基准上评估监控器的性能。 2. 信息泄露识别:识别两种主要的信息泄露类型:引出泄露(来自提示)和推理泄露(来自模型对欺骗行为的解释)。 3. 缓解策略应用:应用三种缓解策略,包括内容过滤、分数过滤和提示蒸馏微调。 4. 性能评估:在应用缓解策略后,重新评估监控器的性能,并与基准测试结果进行比较,以确定信息泄露的影响。 5. 分析与结论:分析实验结果,得出关于信息泄露对监控器评估的影响,以及不同缓解策略有效性的结论。

关键创新:论文的关键创新在于: 1. 系统性的评估框架:提供了一个全面评估监控器信息泄露问题的框架。 2. 信息泄露类型识别:明确区分了引出泄露和推理泄露两种类型。 3. 缓解策略:提出了内容过滤、分数过滤和提示蒸馏微调等缓解策略,用于减少信息泄露的影响。 4. 提示蒸馏微调模型:通过训练不依赖提示的模型,从根本上避免了提示带来的信息泄露。

关键设计: * 内容过滤:设计规则或使用NLP技术,从输入文本中删除与欺骗相关的关键词或短语。 * 分数过滤:仅考虑与任务相关的token的输出分数,忽略其他token的分数。 * 提示蒸馏微调:使用提示作为监督信号,微调一个模型,使其能够在没有提示的情况下表现出目标行为。损失函数可能包括交叉熵损失和正则化项,以防止过拟合。

📊 实验亮点

实验结果表明,内容过滤能有效降低探针AUROC达30%,表明其能有效移除引出信号。分数过滤也能降低AUROC达15%,但其影响因素更为复杂。提示蒸馏微调虽然能改进监控器评估,但会显著降低监控器性能,最高可达40%,即使经过重新训练。

🎯 应用场景

该研究成果可应用于提升大型语言模型安全监控器的评估可靠性,从而更准确地评估和改进监控器的性能。这对于构建更安全、可靠的AI系统至关重要,尤其是在涉及敏感信息或高风险决策的场景中,例如金融、医疗和法律领域。

📄 摘要(原文)

White box monitors that analyze model internals offer promising advantages for detecting potentially harmful behaviors in large language models, including lower computational costs and integration into layered defense systems.However, training and evaluating these monitors requires response exemplars that exhibit the target behaviors, typically elicited through prompting or fine-tuning. This presents a challenge when the information used to elicit behaviors inevitably leaks into the data that monitors ingest, inflating their effectiveness. We present a systematic framework for evaluating a monitor's performance in terms of its ability to detect genuine model behavior rather than superficial elicitation artifacts. Furthermore, we propose three novel strategies to evaluate the monitor: content filtering (removing deception-related text from inputs), score filtering (aggregating only over task-relevant tokens), and prompt distilled fine-tuned model organisms (models trained to exhibit deceptive behavior without explicit prompting). Using deception detection as a representative case study, we identify two forms of leakage that inflate monitor performance: elicitation leakage from prompts that explicitly request harmful behavior, and reasoning leakage from models that verbalize their deceptive actions. Through experiments on multiple deception benchmarks, we apply our proposed mitigation strategies and measure performance retention. Our evaluation of the monitors reveal three crucial findings: (1) Content filtering is a good mitigation strategy that allows for a smooth removal of elicitation signal and can decrease probe AUROC by 30\% (2) Score filtering was found to reduce AUROC by 15\% but is not as straightforward to attribute to (3) A finetuned model organism improves monitor evaluations but reduces their performance by upto 40\%, even when re-trained.