SpecEval: Evaluating Model Adherence to Behavior Specifications

📄 arXiv: 2509.02464v2 📥 PDF

作者: Ahmed Ahmed, Kevin Klyman, Yi Zeng, Sanmi Koyejo, Percy Liang

分类: cs.CL

发布日期: 2025-09-02 (更新: 2025-10-22)


💡 一句话要点

SpecEval:评估大型模型对行为规范的遵循程度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 行为规范 大型语言模型 自动化评估 一致性检验 模型安全

📋 核心要点

  1. 现有方法缺乏对大型模型行为规范遵循情况的系统性审计,难以验证模型是否真正符合其承诺的行为准则。
  2. SpecEval 框架通过解析行为声明、生成针对性提示和利用模型自身进行判断,实现了对模型行为规范遵循情况的自动化评估。
  3. 实验结果表明,不同提供商的模型在行为规范遵循方面存在显著不一致,合规性差距高达 20%,揭示了现有模型在行为控制方面的不足。

📝 摘要(中文)

开发基础模型的公司会发布行为准则,承诺其模型将遵循这些准则,但模型是否真正遵守这些准则尚不清楚。虽然 OpenAI、Anthropic 和 Google 等提供商发布了详细的规范,描述了其模型的期望安全约束和定性特征,但尚未对这些准则的遵守情况进行系统审计。我们引入了一个自动化框架,通过解析行为声明、生成有针对性的提示以及使用模型来判断遵守情况,从而针对提供商的规范审计模型。我们的中心重点是提供商规范、其模型输出及其自身模型作为判断者之间的三方一致性;这是先前双向生成器验证器一致性的扩展。这建立了一个必要的基线:至少,基础模型在由开发者评估模型判断时,应始终如一地满足开发者行为规范。我们将我们的框架应用于来自六个开发者的 16 个模型,涵盖 100 多个行为声明,发现系统性不一致,包括提供商之间高达 20% 的合规性差距。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)是否真正遵守其提供商发布的行为规范的问题。现有方法缺乏系统性的审计机制,无法有效评估模型是否符合其承诺的行为准则。这导致了模型行为的不可预测性和潜在的安全风险。

核心思路:论文的核心思路是建立一个自动化评估框架,通过三方一致性检验来评估模型对行为规范的遵循程度。具体来说,该框架会解析提供商的行为声明,生成针对性的提示,并利用模型自身作为判断者来评估模型输出是否符合规范。这种三方一致性检验能够有效地发现模型在行为规范遵循方面的不一致性。

技术框架:SpecEval 框架包含以下主要模块:1) 行为声明解析器:解析提供商发布的行为规范,提取关键的行为约束。2) 提示生成器:根据行为约束生成针对性的提示,用于测试模型的行为。3) 模型评估器:利用模型自身作为评估器,判断模型输出是否符合行为规范。4) 一致性检验器:比较提供商规范、模型输出和模型评估结果,判断三者是否一致。如果三者不一致,则认为模型未能遵守行为规范。

关键创新:该论文的关键创新在于提出了三方一致性检验的概念,将提供商规范、模型输出和模型评估结果纳入统一的评估框架。这扩展了先前双向生成器验证器一致性的方法,能够更全面地评估模型对行为规范的遵循程度。此外,该框架实现了自动化评估,大大提高了评估效率。

关键设计:SpecEval 框架的关键设计包括:1) 使用自然语言处理技术解析行为声明,提取关键信息。2) 设计有效的提示生成策略,确保提示能够充分测试模型的行为。3) 利用模型自身作为评估器,避免引入外部评估器的偏差。4) 定义明确的一致性判断标准,确保评估结果的客观性和可重复性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SpecEval 框架能够有效地发现模型在行为规范遵循方面的不一致性。在对来自六个提供商的 16 个模型进行评估后,发现不同提供商的模型在行为规范遵循方面存在显著差异,合规性差距高达 20%。这表明现有模型在行为控制方面存在较大的改进空间,需要进一步的研究和开发。

🎯 应用场景

该研究成果可应用于大型语言模型的安全性和可靠性评估,帮助开发者更好地理解和控制模型的行为。通过自动化评估,可以及时发现模型在行为规范遵循方面的问题,并采取相应的措施进行改进。此外,该研究还可以促进模型提供商之间的透明度和责任感,促使他们更加重视模型行为规范的制定和执行。

📄 摘要(原文)

Companies that develop foundation models publish behavioral guidelines they pledge their models will follow, but it remains unclear if models actually do so. While providers such as OpenAI, Anthropic, and Google have published detailed specifications describing both desired safety constraints and qualitative traits for their models, there has been no systematic audit of adherence to these guidelines. We introduce an automated framework that audits models against their providers specifications by parsing behavioral statements, generating targeted prompts, and using models to judge adherence. Our central focus is on three way consistency between a provider specification, its model outputs, and its own models as judges; an extension of prior two way generator validator consistency. This establishes a necessary baseline: at minimum, a foundation model should consistently satisfy the developer behavioral specifications when judged by the developer evaluator models. We apply our framework to 16 models from six developers across more than 100 behavioral statements, finding systematic inconsistencies including compliance gaps of up to 20 percent across providers.