AISafetyBenchExplorer: A Metric-Aware Catalogue of AI Safety Benchmarks Reveals Fragmented Measurement and Weak Benchmark Governance
作者: Abiodun A. Solanke
分类: cs.AI
发布日期: 2026-04-14
备注: 11 pages, 4 figures
💡 一句话要点
AISafetyBenchExplorer:构建AI安全基准评测体系,揭示碎片化测量和薄弱的基准治理问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI安全 基准测试 大型语言模型 元数据 碎片化
📋 核心要点
- 现有AI安全基准数量庞大但缺乏统一标准,导致评估结果难以比较和复用,阻碍了AI安全研究的进展。
- AISafetyBenchExplorer构建了一个结构化的AI安全基准目录,包含元数据、指标定义等,旨在促进基准的发现、比较和元评估。
- 该目录揭示了当前AI安全基准生态的碎片化问题,并强调了建立共享测量语言和持久管理规范的重要性。
📝 摘要(中文)
大型语言模型(LLM)安全评估的快速发展催生了一个庞大的基准生态系统,但相应的测量体系却缺乏连贯性。我们提出了AISafetyBenchExplorer,这是一个结构化的目录,包含了2018年至2026年间发布的195个AI安全基准。该目录通过一个多表模式进行组织,记录了基准级别的元数据、指标级别的定义、基准论文的元数据以及存储库的活动。这种设计不仅可以对现有的基准进行元分析,还可以对文献中安全是如何操作化、聚合和判断的进行元分析。利用更新后的目录,我们发现了一个核心的结构性问题:基准的激增速度超过了测量标准化的速度。当前的格局以中等复杂度的基准为主(94/195),只有7个基准属于流行的级别。该目录还报告了对仅英语评估(165/195)、仅评估资源(170/195)、过时的GitHub存储库(137/195)、过时的Hugging Face数据集(96/195)以及在已知场地元数据的基准中严重依赖arXiv预印本的现象。在指标层面,该目录显示,诸如准确率、F1分数、安全分数和聚合基准分数等熟悉的标签通常掩盖了在评判标准、聚合规则和威胁模型上的实质性差异。我们认为,该领域的主要失败模式是碎片化而不是稀缺。研究人员现在拥有许多基准工件,但他们通常缺乏共享的测量语言、选择基准的原则性基础以及发布后维护的持久管理规范。AISafetyBenchExplorer通过提供可追溯的基准目录、受控的元数据模式和复杂性分类来解决这一差距,从而支持更严格的基准发现、比较和元评估。
🔬 方法详解
问题定义:当前AI安全领域存在大量基准测试,但缺乏统一的标准和规范,导致不同基准之间难以比较,评估结果的可靠性和泛化性受到质疑。现有方法主要关注于提出新的基准,而忽略了对现有基准的系统性分析和管理,导致资源浪费和研究方向的偏差。
核心思路:该论文的核心思路是构建一个全面的AI安全基准目录,通过结构化的元数据和指标定义,实现对现有基准的系统性分析和比较。通过揭示当前基准生态的碎片化问题,呼吁建立共享的测量语言和持久的管理规范,从而促进AI安全研究的健康发展。
技术框架:AISafetyBenchExplorer的技术框架主要包括以下几个部分: 1. 基准收集:收集2018年至2026年间发布的195个AI安全基准。 2. 元数据模式设计:设计一个多表模式,用于记录基准级别的元数据、指标级别的定义、基准论文的元数据以及存储库的活动。 3. 目录构建:基于收集到的基准和设计的元数据模式,构建一个结构化的AI安全基准目录。 4. 分析与评估:对目录中的基准进行分析,揭示当前基准生态的碎片化问题,并提出改进建议。
关键创新:该论文的关键创新在于: 1. 系统性的基准目录:构建了一个全面的AI安全基准目录,为研究人员提供了一个集中的资源库。 2. 结构化的元数据模式:设计了一个结构化的元数据模式,实现了对基准的系统性描述和比较。 3. 碎片化问题揭示:揭示了当前AI安全基准生态的碎片化问题,为未来的研究方向提供了指导。
关键设计:该论文的关键设计包括: 1. 多表模式:采用多表模式来记录基准的元数据,包括基准级别、指标级别、论文级别和存储库活动等。 2. 复杂性分类:对基准的复杂性进行分类,包括简单、中等和复杂三个级别。 3. 指标定义:对基准中使用的指标进行定义,包括指标的名称、计算方法和评估标准等。
🖼️ 关键图片
📊 实验亮点
AISafetyBenchExplorer目录揭示了当前AI安全基准生态的碎片化问题,例如,中等复杂度的基准占主导地位(94/195),流行的基准数量较少(7/195),并且存在对英语和评估资源的过度依赖。此外,该研究还发现,即使是相同的指标名称,其评判标准、聚合规则和威胁模型也可能存在实质性差异。
🎯 应用场景
该研究成果可应用于AI安全评估、基准测试选择和AI安全研究方向指导。通过AISafetyBenchExplorer,研究人员可以更方便地发现、比较和选择合适的基准,从而提高AI安全评估的效率和可靠性。该研究还有助于推动AI安全领域的标准化和规范化,促进AI技术的健康发展。
📄 摘要(原文)
The rapid expansion of large language model (LLM) safety evaluation has produced a substantial benchmark ecosystem, but not a correspondingly coherent measurement ecosystem. We present AISafetyBenchExplorer, a structured catalogue of 195 AI safety benchmarks released between 2018 and 2026, organized through a multi-sheet schema that records benchmark-level metadata, metric-level definitions, benchmark-paper metadata, and repository activity. This design enables meta-analysis not only of what benchmarks exist, but also of how safety is operationalized, aggregated, and judged across the literature. Using the updated catalogue, we identify a central structural problem: benchmark proliferation has outpaced measurement standardization. The current landscape is dominated by medium-complexity benchmarks (94/195), while only 7 benchmarks occupy the Popular tier. The workbook further reports strong concentration around English-only evaluation (165/195), evaluation-only resources (170/195), stale GitHub repositories (137/195), stale Hugging Face datasets (96/195), and heavy reliance on arXiv preprints among benchmarks with known venue metadata. At the metric level, the catalogue shows that familiar labels such as accuracy, F1 score, safety score, and aggregate benchmark scores often conceal materially different judges, aggregation rules, and threat models. We argue that the field's main failure mode is fragmentation rather than scarcity. Researchers now have many benchmark artifacts, but they often lack a shared measurement language, a principled basis for benchmark selection, and durable stewardship norms for post publication maintenance. AISafetyBenchExplorer addresses this gap by providing a traceable benchmark catalogue, a controlled metadata schema, and a complexity taxonomy that together support more rigorous benchmark discovery, comparison, and meta-evaluation.