Automated Safety Evaluations Across 20 Large Language Models: The Aymara LLM Risk and Responsibility Matrix

作者: Juan Manuel Contreras

分类: cs.AI

发布日期: 2025-07-19

💡 一句话要点

Aymara AI：自动化评估LLM安全风险，揭示模型在隐私和偏见等领域的不足。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全评估 对抗性提示 AI评分器 隐私保护 风险评估 自动化评估 责任矩阵

📋 核心要点

现有LLM安全评估缺乏可扩展性和定制性，难以应对快速发展的安全威胁和多样化的应用场景。
Aymara AI通过程序化生成对抗性提示和AI驱动的评分器，实现了自动化、可定制的安全评估流程。
实验表明，不同LLM在不同安全领域表现差异显著，尤其在隐私和模仿等复杂领域存在明显不足。

📝 摘要（中文）

随着大型语言模型（LLMs）日益融入现实应用，可扩展且严谨的安全评估至关重要。本文介绍Aymara AI，一个用于生成和管理定制化、基于策略的安全评估的程序化平台。Aymara AI将自然语言安全策略转化为对抗性提示，并使用基于AI的评估器对模型响应进行评分，该评估器已通过人工判断验证。我们通过Aymara LLM风险与责任矩阵展示了其能力，该矩阵评估了20个商业LLM在10个真实世界安全领域中的表现。结果显示性能差异很大，平均安全分数从86.2%到52.4%不等。虽然模型在诸如错误信息等成熟的安全领域表现良好（平均=95.7%），但在更复杂或未明确指定的领域（特别是隐私与模仿，平均=24.3%）中始终失败。方差分析证实，安全分数在模型和领域之间存在显著差异（p < .05）。这些发现强调了LLM安全的不一致性和上下文依赖性，并突出了对像Aymara AI这样可扩展、可定制的工具的需求，以支持负责任的AI开发和监督。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）安全评估中缺乏可扩展性和定制性的问题。现有的安全评估方法通常依赖于人工评估，成本高昂且难以覆盖所有潜在的安全风险。此外，不同应用场景对安全的要求不同，现有的评估方法难以满足定制化的需求。

核心思路：论文的核心思路是利用程序化的方式自动生成对抗性提示，并使用AI驱动的评分器对LLM的响应进行评估。通过将自然语言安全策略转化为对抗性提示，可以有效地测试LLM在不同安全领域的表现。AI评分器可以模拟人类的判断，实现高效且一致的评估。

技术框架：Aymara AI平台包含以下主要模块：1) 安全策略定义模块：将自然语言安全策略转化为机器可读的格式。2) 对抗性提示生成模块：基于安全策略自动生成对抗性提示，用于测试LLM的安全性。3) LLM响应评估模块：使用AI评分器对LLM的响应进行评分，评估其在不同安全领域的表现。4) 结果分析模块：对评估结果进行分析，识别LLM的安全漏洞和潜在风险。

关键创新：Aymara AI的关键创新在于其程序化的安全评估方法，可以自动生成对抗性提示并使用AI评分器进行评估，从而实现可扩展且定制化的安全评估。与传统的人工评估方法相比，Aymara AI可以显著降低评估成本并提高评估效率。此外，Aymara AI还可以根据不同的安全策略生成定制化的评估方案，满足不同应用场景的需求。

关键设计：Aymara AI使用基于Transformer的AI评分器，该评分器经过人工标注数据的训练，可以准确地评估LLM的响应。对抗性提示的生成采用了多种策略，包括基于规则的生成、基于模型的生成和基于优化的生成。论文还采用了方差分析等统计方法，对评估结果进行深入分析，识别LLM的安全漏洞和潜在风险。

🖼️ 关键图片

📊 实验亮点

Aymara LLM风险与责任矩阵评估了20个商业LLM在10个真实世界安全领域中的表现，结果显示模型在不同安全领域表现差异显著，平均安全分数从86.2%到52.4%不等。模型在错误信息等成熟的安全领域表现良好（平均=95.7%），但在隐私与模仿等复杂领域表现较差（平均=24.3%）。方差分析证实，安全分数在模型和领域之间存在显著差异（p < .05）。

🎯 应用场景

该研究成果可应用于LLM的安全风险评估、安全策略制定和安全漏洞修复。Aymara AI平台可以帮助开发者和监管机构更好地了解LLM的安全性能，及时发现和解决安全问题，从而促进LLM的负责任发展和应用。该平台还可用于评估不同LLM的安全性能，为用户选择合适的LLM提供参考。

📄 摘要（原文）

As large language models (LLMs) become increasingly integrated into real-world applications, scalable and rigorous safety evaluation is essential. This paper introduces Aymara AI, a programmatic platform for generating and administering customized, policy-grounded safety evaluations. Aymara AI transforms natural-language safety policies into adversarial prompts and scores model responses using an AI-based rater validated against human judgments. We demonstrate its capabilities through the Aymara LLM Risk and Responsibility Matrix, which evaluates 20 commercially available LLMs across 10 real-world safety domains. Results reveal wide performance disparities, with mean safety scores ranging from 86.2% to 52.4%. While models performed well in well-established safety domains such as Misinformation (mean = 95.7%), they consistently failed in more complex or underspecified domains, notably Privacy & Impersonation (mean = 24.3%). Analyses of Variance confirmed that safety scores differed significantly across both models and domains (p < .05). These findings underscore the inconsistent and context-dependent nature of LLM safety and highlight the need for scalable, customizable tools like Aymara AI to support responsible AI development and oversight.

Automated Safety Evaluations Across 20 Large Language Models: The Aymara LLM Risk and Responsibility Matrix

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理