Automated Analysis of Global AI Safety Initiatives: A Taxonomy-Driven LLM Approach

作者: Takayuki Semitsu, Naoto Kiribuchi, Kengo Zenitani

分类: cs.AI

发布日期: 2026-04-07

💡 一句话要点

提出基于活动分类法的LLM自动分析框架，用于评估全球AI安全倡议的政策文件。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI安全 政策分析 大型语言模型 自动化分析 活动分类法

📋 核心要点

现有AI安全政策文件缺乏系统性的比较分析方法，难以有效评估不同倡议的异同。
利用大型语言模型(LLM)和预定义的AI安全活动分类法，自动提取、映射和比较政策文件中的相关活动。
实验结果表明，模型选择对互查结果有显著影响，且模型评分与人工评估存在差异，验证了比较检查的必要性。

📝 摘要（中文）

本文提出了一个自动化的互查框架，该框架在一个共享的活动分类法下比较一对AI安全政策文件。该系统使用AI安全活动地图中定义的活动类别作为固定方面，提取并映射相关活动，然后针对每个方面生成每个文档的简短摘要、简要比较和相似度评分。我们评估了基于LLM的互查分析在公共政策文件中的稳定性和有效性。使用五个大型语言模型，我们对十个公开可用的文档执行互查，并使用热图可视化平均相似度评分。结果表明，模型选择会显著影响互查结果，并且某些文档对在模型之间产生高度分歧。三位专家对两对文档进行的人工评估显示出较高的注释者间一致性，而模型评分仍然与人类判断不同。这些发现支持对政策文件进行比较检查。

🔬 方法详解

问题定义：当前缺乏一种有效的方法来系统地比较和分析不同的AI安全政策文件，这使得理解不同倡议之间的异同以及识别潜在的差距变得困难。现有的方法通常依赖于人工分析，这既耗时又容易出错。因此，需要一种自动化的方法来促进对AI安全政策的比较检查。

核心思路：本文的核心思路是利用大型语言模型（LLM）的文本理解和生成能力，结合预定义的AI安全活动分类法，构建一个自动化的互查框架。该框架能够自动提取政策文件中的相关活动，并根据分类法进行映射和比较，从而生成摘要、比较和相似度评分。

技术框架：该框架包含以下主要模块：1) 活动提取：使用LLM从政策文件中提取与AI安全活动分类法相关的活动描述。2) 活动映射：将提取的活动描述映射到预定义的活动类别。3) 摘要生成：为每个活动类别生成每个文档的简短摘要。4) 比较分析：比较不同文档在同一活动类别下的摘要，并生成简要比较。5) 相似度评分：计算不同文档在同一活动类别下的相似度评分。整体流程是，输入一对AI安全政策文件，经过上述模块处理后，输出每个活动类别的摘要、比较和相似度评分。

关键创新：该方法的主要创新在于将LLM应用于AI安全政策文件的自动化比较分析。通过结合预定义的活动分类法，该方法能够系统地提取和比较不同政策文件中的相关活动，从而提供更深入的理解。此外，该方法还能够生成摘要和相似度评分，从而进一步促进了政策文件的比较检查。

关键设计：该方法使用了Activity Map on AI Safety中定义的活动类别作为固定的方面。使用了五个大型语言模型进行实验，包括但不限于具体模型名称（论文中未明确给出，未知）。相似度评分的计算方法（论文中未明确给出，未知）。人工评估由三位专家进行，评估指标（论文中未明确给出，未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，模型选择对互查结果有显著影响，不同模型在同一文档对上的相似度评分存在较大差异。人工评估显示，专家之间具有较高的注释者间一致性，但模型评分与人工判断仍存在差异。这些结果强调了在AI安全政策分析中进行比较检查的重要性，并表明需要进一步改进LLM在政策分析中的应用。

🎯 应用场景

该研究成果可应用于AI安全政策制定、评估和改进。政府机构、研究机构和企业可以使用该框架来比较和分析不同的AI安全倡议，识别潜在的差距和重叠，并制定更有效的政策。此外，该框架还可以用于监测AI安全政策的实施情况，并评估其有效性。该研究有助于促进全球AI安全治理的协调和合作。

📄 摘要（原文）

We present an automated crosswalk framework that compares an AI safety policy document pair under a shared taxonomy of activities. Using the activity categories defined in Activity Map on AI Safety as fixed aspects, the system extracts and maps relevant activities, then produces for each aspect a short summary for each document, a brief comparison, and a similarity score. We assess the stability and validity of LLM-based crosswalk analysis across public policy documents. Using five large language models, we perform crosswalks on ten publicly available documents and visualize mean similarity scores with a heatmap. The results show that model choice substantially affects the crosswalk outcomes, and that some document pairs yield high disagreements across models. A human evaluation by three experts on two document pairs shows high inter-annotator agreement, while model scores still differ from human judgments. These findings support comparative inspection of policy documents.

Automated Analysis of Global AI Safety Initiatives: A Taxonomy-Driven LLM Approach

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理