ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI
作者: Haibo Tong, Feifei Zhao, Linghao Feng, Ruoyu Wu, Ruolin Chen, Lu Jia, Zhou Zhao, Jindong Li, Tenglong Li, Erliang Lin, Shuai Yang, Enmeng Lu, Yinqian Sun, Qian Zhang, Zizhe Ruan, Jinyu Fan, Zeyang Yue, Ping Wu, Huangrui Li, Chengyi Sun, Yi Zeng
分类: cs.AI, cs.CR, cs.CY
发布日期: 2026-02-15 (更新: 2026-02-21)
🔗 代码/项目: GITHUB
💡 一句话要点
提出ForesightSafety Bench,用于全面评估前沿AI的潜在风险与安全治理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI安全 风险评估 安全基准 前沿AI 大型模型 具身智能 AI治理
📋 核心要点
- 现有AI安全评估系统在风险维度和前沿风险检测方面存在局限性,难以应对快速发展的人工智能带来的复杂挑战。
- ForesightSafety Bench框架通过构建多维度风险评估体系,系统性地评估前沿AI模型的潜在风险。
- 该基准已积累数万个风险数据点,并对20多个主流大型模型进行评估,揭示了多个安全漏洞。
📝 摘要(中文)
快速发展的人工智能展现出越来越强的自主性和目标导向能力,同时也伴随着更不可预测、难以控制和潜在不可逆的衍生系统性风险。然而,当前的人工智能安全评估系统存在关键局限,例如风险维度受限和前沿风险检测失败。滞后的安全基准和对齐技术难以应对前沿人工智能模型带来的复杂挑战。为了弥合这一差距,我们提出了“ForesightSafety Bench”人工智能安全评估框架,从7个主要的基本安全支柱开始,逐步扩展到高级具身人工智能安全、AI4Science安全、社会和环境人工智能风险、灾难性和生存风险,以及8个关键的工业安全领域,总共形成94个精细化的风险维度。到目前为止,该基准已经积累了数万个结构化的风险数据点和评估结果,建立了一个广泛涵盖、层次清晰和动态发展的人工智能安全评估框架。基于此基准,我们对超过20个主流先进大型模型进行了系统评估和深入分析,识别了关键风险模式及其能力边界。安全能力评估结果揭示了前沿人工智能在多个支柱上的普遍安全漏洞,特别关注于风险代理自主性、AI4Science安全、具身人工智能安全、社会人工智能安全以及灾难性和生存风险。
🔬 方法详解
问题定义:当前AI安全评估体系无法有效识别和评估前沿AI模型带来的复杂风险,主要体现在风险维度覆盖不足,难以检测新兴的、潜在的灾难性风险,以及缺乏对具身智能、AI4Science等新兴领域的安全考量。现有方法难以应对AI自主性增强带来的不可预测性和潜在危害。
核心思路:ForesightSafety Bench的核心思路是构建一个全面、分层、动态的AI安全评估框架,覆盖从基本安全到灾难性风险的多个维度,并能够随着AI技术的发展而不断演进。通过结构化的风险数据和评估结果,系统性地分析前沿AI模型的安全能力和潜在风险。
技术框架:ForesightSafety Bench框架包含以下几个主要组成部分: 1. 风险维度定义:定义了7个基本安全支柱,并逐步扩展到具身AI安全、AI4Science安全、社会和环境AI风险、灾难性和生存风险,以及8个工业安全领域,共计94个精细化的风险维度。 2. 风险数据收集:积累了数万个结构化的风险数据点,用于评估AI模型的安全能力。 3. 模型评估:对主流先进大型模型进行系统评估和深入分析,识别关键风险模式及其能力边界。 4. 动态演进:框架设计为可动态演进,能够随着AI技术的发展而不断更新和完善。
关键创新:该框架的关键创新在于其全面性和前瞻性。它不仅关注传统AI安全问题,还涵盖了具身智能、AI4Science等新兴领域的安全风险,以及潜在的灾难性和生存风险。此外,该框架还具有动态演进的能力,能够适应AI技术的快速发展。
关键设计:框架的关键设计包括: 1. 分层风险维度:将风险维度分为多个层次,从基本安全到灾难性风险,便于系统性地评估AI模型的安全能力。 2. 结构化风险数据:采用结构化的方式存储风险数据,便于分析和比较不同AI模型的安全性能。 3. 可扩展性:框架设计为可扩展的,能够方便地添加新的风险维度和评估指标。
🖼️ 关键图片
📊 实验亮点
通过对20多个主流大型模型的系统评估,ForesightSafety Bench揭示了前沿AI在多个安全支柱上的普遍漏洞,特别是在风险代理自主性、AI4Science安全、具身AI安全、社会AI安全以及灾难性和生存风险等方面。这些评估结果为后续的AI安全研究和治理提供了重要参考。
🎯 应用场景
ForesightSafety Bench可应用于AI安全治理、风险评估、模型安全能力提升等多个领域。它可以帮助研究人员和开发者更全面地了解AI模型的潜在风险,并采取相应的安全措施。此外,该基准还可以为政府和监管机构提供参考,制定更有效的AI安全政策。
📄 摘要(原文)
Rapidly evolving AI exhibits increasingly strong autonomy and goal-directed capabilities, accompanied by derivative systemic risks that are more unpredictable, difficult to control, and potentially irreversible. However, current AI safety evaluation systems suffer from critical limitations such as restricted risk dimensions and failed frontier risk detection. The lagging safety benchmarks and alignment technologies can hardly address the complex challenges posed by cutting-edge AI models. To bridge this gap, we propose the "ForesightSafety Bench" AI Safety Evaluation Framework, beginning with 7 major Fundamental Safety pillars and progressively extends to advanced Embodied AI Safety, AI4Science Safety, Social and Environmental AI risks, Catastrophic and Existential Risks, as well as 8 critical industrial safety domains, forming a total of 94 refined risk dimensions. To date, the benchmark has accumulated tens of thousands of structured risk data points and assessment results, establishing a widely encompassing, hierarchically clear, and dynamically evolving AI safety evaluation framework. Based on this benchmark, we conduct systematic evaluation and in-depth analysis of over twenty mainstream advanced large models, identifying key risk patterns and their capability boundaries. The safety capability evaluation results reveals the widespread safety vulnerabilities of frontier AI across multiple pillars, particularly focusing on Risky Agentic Autonomy, AI4Science Safety, Embodied AI Safety, Social AI Safety and Catastrophic and Existential Risks. Our benchmark is released at https://github.com/Beijing-AISI/ForesightSafety-Bench. The project website is available at https://foresightsafety-bench.beijing-aisi.ac.cn/.