Adapting Probabilistic Risk Assessment for AI
作者: Anna Katariina Wisakanto, Joe Rogero, Avyay M. Casheekar, Richard Mallah
分类: cs.AI, cs.CY, cs.LG, eess.SY, stat.AP
发布日期: 2025-04-25 (更新: 2025-07-02)
备注: Project website with workbook tool available at: https://pra-for-ai.github.io/pra/
💡 一句话要点
提出AI概率风险评估框架,应对通用人工智能系统风险管理挑战
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 人工智能安全 风险评估 概率风险评估 AI治理 通用人工智能 危害分析 不确定性管理
📋 核心要点
- 现有AI风险评估方法依赖选择性测试和未记录假设,无法全面评估AI系统对社会和生物圈的潜在风险。
- 论文提出AI概率风险评估(PRA)框架,借鉴高可靠性行业的PRA技术,系统性地识别、评估和管理AI风险。
- 该框架实现为工作簿工具,为AI开发者、评估者和监管者提供支持,辅助进行风险评估和决策。
📝 摘要(中文)
现代通用人工智能(AI)系统带来了紧迫的风险管理挑战,因为它们快速发展的功能和潜在的灾难性危害超过了我们可靠评估其风险的能力。当前的方法通常依赖于选择性测试和关于风险优先级的未记录假设,常常未能认真尝试评估AI系统对社会和生物圈构成直接或间接风险的途径集合。本文介绍了AI概率风险评估(PRA)框架,将来自高可靠性行业(如核电、航空航天)的成熟PRA技术应用于高级AI的新挑战。该框架指导评估人员识别潜在风险,估计可能性和严重性范围,并以适当的粒度显式记录证据、基本假设和分析。该框架的实现工具将结果综合成风险报告卡,其中包含来自所有已评估风险的汇总风险估计。它引入了三个方法论进展:(1)面向方面的危害分析,通过AI系统方面的第一性原理分类(例如,能力、领域知识、可供性)指导系统性危害覆盖;(2)风险路径建模,使用双向分析并结合前瞻性技术分析从系统方面到社会影响的因果链;(3)不确定性管理,采用情景分解、参考尺度和显式跟踪协议来构建具有新颖性或有限数据的可信预测。此外,该框架通过将证据整合到可比较的、量化的绝对风险估计中,协调了各种评估方法,以供生命周期决策。我们已将其实现为AI开发人员、评估人员和监管机构的工作簿工具。
🔬 方法详解
问题定义:当前AI风险评估方法存在局限性,无法有效应对通用人工智能系统带来的快速演进的风险。现有方法依赖于选择性测试和未明确的风险优先级假设,缺乏对AI系统可能造成的直接或间接社会和环境风险的全面评估。因此,需要一种系统性的、可量化的方法来识别、评估和管理AI风险。
核心思路:论文的核心思路是将成熟的概率风险评估(PRA)技术,从高可靠性行业(如核电、航空航天)迁移到AI领域。通过借鉴这些行业的经验,构建一个结构化的框架,用于识别潜在风险、估计风险的可能性和严重性,并明确记录评估过程中的证据、假设和分析。
技术框架:该框架包含以下主要模块:1) 面向方面的危害分析:使用AI系统方面的第一性原理分类(例如,能力、领域知识、可供性)来系统地覆盖潜在的危害。2) 风险路径建模:分析从系统方面到社会影响的因果链,使用双向分析并结合前瞻性技术。3) 不确定性管理:采用情景分解、参考尺度和显式跟踪协议来构建具有新颖性或有限数据的可信预测。框架的输出是一个风险报告卡,其中包含来自所有已评估风险的汇总风险估计。
关键创新:该框架的关键创新在于将PRA方法论应用于AI风险评估,并针对AI系统的独特性质进行了调整。具体包括:1) 面向方面的危害分析,提供了一种系统性的方法来识别AI系统中的潜在危害。2) 风险路径建模,考虑了从系统能力到社会影响的复杂因果关系。3) 不确定性管理,处理了AI系统评估中常见的数据稀缺和不确定性问题。
关键设计:该框架的关键设计包括:1) 使用第一性原理分类来指导危害分析,确保覆盖AI系统的各个方面。2) 采用双向分析和前瞻性技术来建模风险路径,考虑了潜在的反馈循环和未来发展。3) 使用情景分解、参考尺度和显式跟踪协议来管理不确定性,确保评估结果的可靠性。
📊 实验亮点
论文提出了一个完整的AI风险评估框架,并将其实现为一个工作簿工具。该工具可以帮助AI开发者、评估人员和监管机构系统地评估和管理AI风险。该框架引入了面向方面的危害分析、风险路径建模和不确定性管理等创新方法,提高了AI风险评估的准确性和可靠性。虽然论文没有提供具体的性能数据,但其方法论的创新性和实用性值得关注。
🎯 应用场景
该研究成果可应用于AI系统的开发、评估和监管领域。AI开发者可以使用该框架来识别和减轻其系统中的潜在风险。评估人员可以使用该框架来评估AI系统的安全性和可靠性。监管机构可以使用该框架来制定AI安全标准和法规。该框架有助于提高AI系统的安全性,促进AI技术的负责任发展。
📄 摘要(原文)
Modern general-purpose artificial intelligence (AI) systems present an urgent risk management challenge, as their rapidly evolving capabilities and potential for catastrophic harm outpace our ability to reliably assess their risks. Current methods often rely on selective testing and undocumented assumptions about risk priorities, frequently failing to make a serious attempt at assessing the set of pathways through which AI systems pose direct or indirect risks to society and the biosphere. This paper introduces the probabilistic risk assessment (PRA) for AI framework, adapting established PRA techniques from high-reliability industries (e.g., nuclear power, aerospace) for the new challenges of advanced AI. The framework guides assessors in identifying potential risks, estimating likelihood and severity bands, and explicitly documenting evidence, underlying assumptions, and analyses at appropriate granularities. The framework's implementation tool synthesizes the results into a risk report card with aggregated risk estimates from all assessed risks. It introduces three methodological advances: (1) Aspect-oriented hazard analysis provides systematic hazard coverage guided by a first-principles taxonomy of AI system aspects (e.g. capabilities, domain knowledge, affordances); (2) Risk pathway modeling analyzes causal chains from system aspects to societal impacts using bidirectional analysis and incorporating prospective techniques; and (3) Uncertainty management employs scenario decomposition, reference scales, and explicit tracing protocols to structure credible projections with novelty or limited data. Additionally, the framework harmonizes diverse assessment methods by integrating evidence into comparable, quantified absolute risk estimates for lifecycle decisions. We have implemented this as a workbook tool for AI developers, evaluators, and regulators.