AIR-Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies

📄 arXiv: 2407.17436v2 📥 PDF

作者: Yi Zeng, Yu Yang, Andy Zhou, Jeffrey Ziwei Tan, Yuheng Tu, Yifan Mai, Kevin Klyman, Minzhou Pan, Ruoxi Jia, Dawn Song, Percy Liang, Bo Li

分类: cs.CY, cs.AI

发布日期: 2024-07-11 (更新: 2024-08-05)


💡 一句话要点

提出AIR-Bench 2024,一个基于法规和政策风险类别的AI安全基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI安全 基准测试 法规遵从 风险评估 语言模型 安全分类 政策对齐

📋 核心要点

  1. 现有AI安全基准的类别定义与最新的政府法规和公司政策不一致,难以有效评估和比较不同模型的安全性。
  2. AIR-Bench 2024通过将法规和政策分解为细粒度的风险类别,构建了一个与实际AI风险对齐的安全评估基准。
  3. AIR-Bench 2024包含5694个多样化的提示,并对领先的语言模型进行了评估,揭示了模型在特定安全问题上的表现。

📝 摘要(中文)

基础模型(FMs)在带来社会效益的同时也放大了风险。为了应对这一问题,政府、公司和研究人员提出了监管框架、可接受的使用政策和安全基准。然而,现有的公开基准通常基于先前的文献、直觉或常识来定义安全类别,导致与最新法规和政策中规定的风险类别不一致,这使得跨这些基准评估和比较FMs具有挑战性。为了弥合这一差距,我们推出了AIR-Bench 2024,这是第一个与新兴政府法规和公司政策对齐的AI安全基准,它遵循基于我们的AI风险研究AIR 2024的基于法规的安全类别。AIR 2024将8项政府法规和16项公司政策分解为一个四层安全分类法,在最低层包含314个细粒度的风险类别。AIR-Bench 2024包含5,694个跨越这些类别的多样化提示,并经过人工管理和人工审核以确保质量。我们评估了AIR-Bench 2024上的领先语言模型,揭示了它们与特定安全问题的对齐情况。通过弥合公共基准和实际AI风险之间的差距,AIR-Bench 2024为跨司法管辖区评估模型安全性奠定了基础,从而促进了更安全、更负责任的AI系统的开发。

🔬 方法详解

问题定义:当前AI安全基准的构建方式存在问题,它们通常依赖于已有的文献、直觉或常识来定义安全类别,这导致这些类别与最新的政府法规和公司政策中定义的风险类别不一致。这种不一致使得评估和比较不同基础模型在满足法规和政策方面的安全性变得困难。现有的方法缺乏一个系统性的、与实际法规和政策对齐的评估框架。

核心思路:AIR-Bench 2024的核心思路是构建一个与新兴政府法规和公司政策对齐的AI安全基准。通过将法规和政策分解为细粒度的风险类别,该基准能够更准确地评估模型在满足特定安全要求方面的表现。这种方法确保了评估结果与实际的法律和政策环境相关,从而为开发更安全、更负责任的AI系统提供了基础。

技术框架:AIR-Bench 2024的技术框架主要包括以下几个阶段:1) 法规和政策分析:对8项政府法规和16项公司政策进行深入分析,识别出其中的安全风险类别。2) 安全分类体系构建:将识别出的风险类别构建为一个四层安全分类体系,包含314个细粒度的风险类别。3) 提示生成与收集:针对每个风险类别,生成和收集多样化的提示,总共包含5,694个提示。4) 人工管理与审核:对生成的提示进行人工管理和审核,确保提示的质量和相关性。5) 模型评估:使用AIR-Bench 2024评估领先的语言模型,分析它们在不同风险类别上的表现。

关键创新:AIR-Bench 2024最重要的技术创新点在于其与实际法规和政策的对齐。与以往依赖文献、直觉或常识的基准不同,AIR-Bench 2024直接基于政府法规和公司政策构建安全类别,从而确保了评估结果的实用性和相关性。这种方法弥合了公共基准和实际AI风险之间的差距,为AI安全评估提供了一个更可靠的基础。

关键设计:AIR-Bench 2024的关键设计包括:1) 四层安全分类体系:该体系将风险类别分解为多个层次,从宏观到微观,从而能够更全面地评估模型的安全性。2) 多样化的提示:针对每个风险类别,生成和收集多样化的提示,以覆盖不同的场景和情况。3) 人工管理与审核:通过人工管理和审核,确保提示的质量和相关性,避免引入噪声和偏差。具体的参数设置、损失函数、网络结构等技术细节未在论文中详细描述,属于基准测试本身,而非模型训练或优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AIR-Bench 2024对领先的语言模型进行了评估,揭示了它们在不同风险类别上的表现。具体性能数据和提升幅度未在摘要中详细给出,但强调了该基准能够有效揭示模型与特定安全问题的对齐情况,为模型安全性的评估提供了有价值的参考。

🎯 应用场景

AIR-Bench 2024可用于评估和比较不同AI模型在满足特定法规和政策方面的安全性,帮助开发者识别模型存在的安全风险,并指导模型的改进和优化。该基准还可用于监管机构评估AI系统的合规性,促进AI技术的负责任发展和应用。

📄 摘要(原文)

Foundation models (FMs) provide societal benefits but also amplify risks. Governments, companies, and researchers have proposed regulatory frameworks, acceptable use policies, and safety benchmarks in response. However, existing public benchmarks often define safety categories based on previous literature, intuitions, or common sense, leading to disjointed sets of categories for risks specified in recent regulations and policies, which makes it challenging to evaluate and compare FMs across these benchmarks. To bridge this gap, we introduce AIR-Bench 2024, the first AI safety benchmark aligned with emerging government regulations and company policies, following the regulation-based safety categories grounded in our AI risks study, AIR 2024. AIR 2024 decomposes 8 government regulations and 16 company policies into a four-tiered safety taxonomy with 314 granular risk categories in the lowest tier. AIR-Bench 2024 contains 5,694 diverse prompts spanning these categories, with manual curation and human auditing to ensure quality. We evaluate leading language models on AIR-Bench 2024, uncovering insights into their alignment with specified safety concerns. By bridging the gap between public benchmarks and practical AI risks, AIR-Bench 2024 provides a foundation for assessing model safety across jurisdictions, fostering the development of safer and more responsible AI systems.