Automated Analysis of Global AI Safety Initiatives: A Taxonomy-Driven LLM Approach
作者: Takayuki Semitsu, Naoto Kiribuchi, Kengo Zenitani
分类: cs.AI
发布日期: 2026-04-07
💡 一句话要点
提出基于活动分类法的LLM自动分析框架,用于评估全球AI安全倡议的政策文件。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI安全 政策分析 大型语言模型 自动化分析 活动分类法
📋 核心要点
- 现有AI安全政策文件缺乏系统性的比较分析方法,难以有效评估不同倡议的异同。
- 利用大型语言模型(LLM)和预定义的AI安全活动分类法,自动提取、映射和比较政策文件中的相关活动。
- 实验结果表明,模型选择对互查结果有显著影响,且模型评分与人工评估存在差异,验证了比较检查的必要性。
📝 摘要(中文)
本文提出了一个自动化的互查框架,该框架在一个共享的活动分类法下比较一对AI安全政策文件。该系统使用AI安全活动地图中定义的活动类别作为固定方面,提取并映射相关活动,然后针对每个方面生成每个文档的简短摘要、简要比较和相似度评分。我们评估了基于LLM的互查分析在公共政策文件中的稳定性和有效性。使用五个大型语言模型,我们对十个公开可用的文档执行互查,并使用热图可视化平均相似度评分。结果表明,模型选择会显著影响互查结果,并且某些文档对在模型之间产生高度分歧。三位专家对两对文档进行的人工评估显示出较高的注释者间一致性,而模型评分仍然与人类判断不同。这些发现支持对政策文件进行比较检查。
🔬 方法详解
问题定义:当前缺乏一种有效的方法来系统地比较和分析不同的AI安全政策文件,这使得理解不同倡议之间的异同以及识别潜在的差距变得困难。现有的方法通常依赖于人工分析,这既耗时又容易出错。因此,需要一种自动化的方法来促进对AI安全政策的比较检查。
核心思路:本文的核心思路是利用大型语言模型(LLM)的文本理解和生成能力,结合预定义的AI安全活动分类法,构建一个自动化的互查框架。该框架能够自动提取政策文件中的相关活动,并根据分类法进行映射和比较,从而生成摘要、比较和相似度评分。
技术框架:该框架包含以下主要模块:1) 活动提取:使用LLM从政策文件中提取与AI安全活动分类法相关的活动描述。2) 活动映射:将提取的活动描述映射到预定义的活动类别。3) 摘要生成:为每个活动类别生成每个文档的简短摘要。4) 比较分析:比较不同文档在同一活动类别下的摘要,并生成简要比较。5) 相似度评分:计算不同文档在同一活动类别下的相似度评分。整体流程是,输入一对AI安全政策文件,经过上述模块处理后,输出每个活动类别的摘要、比较和相似度评分。
关键创新:该方法的主要创新在于将LLM应用于AI安全政策文件的自动化比较分析。通过结合预定义的活动分类法,该方法能够系统地提取和比较不同政策文件中的相关活动,从而提供更深入的理解。此外,该方法还能够生成摘要和相似度评分,从而进一步促进了政策文件的比较检查。
关键设计:该方法使用了Activity Map on AI Safety中定义的活动类别作为固定的方面。使用了五个大型语言模型进行实验,包括但不限于具体模型名称(论文中未明确给出,未知)。相似度评分的计算方法(论文中未明确给出,未知)。人工评估由三位专家进行,评估指标(论文中未明确给出,未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,模型选择对互查结果有显著影响,不同模型在同一文档对上的相似度评分存在较大差异。人工评估显示,专家之间具有较高的注释者间一致性,但模型评分与人工判断仍存在差异。这些结果强调了在AI安全政策分析中进行比较检查的重要性,并表明需要进一步改进LLM在政策分析中的应用。
🎯 应用场景
该研究成果可应用于AI安全政策制定、评估和改进。政府机构、研究机构和企业可以使用该框架来比较和分析不同的AI安全倡议,识别潜在的差距和重叠,并制定更有效的政策。此外,该框架还可以用于监测AI安全政策的实施情况,并评估其有效性。该研究有助于促进全球AI安全治理的协调和合作。
📄 摘要(原文)
We present an automated crosswalk framework that compares an AI safety policy document pair under a shared taxonomy of activities. Using the activity categories defined in Activity Map on AI Safety as fixed aspects, the system extracts and maps relevant activities, then produces for each aspect a short summary for each document, a brief comparison, and a similarity score. We assess the stability and validity of LLM-based crosswalk analysis across public policy documents. Using five large language models, we perform crosswalks on ten publicly available documents and visualize mean similarity scores with a heatmap. The results show that model choice substantially affects the crosswalk outcomes, and that some document pairs yield high disagreements across models. A human evaluation by three experts on two document pairs shows high inter-annotator agreement, while model scores still differ from human judgments. These findings support comparative inspection of policy documents.