Automated Safety Evaluations Across 20 Large Language Models: The Aymara LLM Risk and Responsibility Matrix
作者: Juan Manuel Contreras
分类: cs.AI
发布日期: 2025-07-19
💡 一句话要点
Aymara AI:自动化评估LLM安全风险,揭示模型在隐私和偏见等领域的不足。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全评估 对抗性提示 AI评分器 隐私保护 风险评估 自动化评估 责任矩阵
📋 核心要点
- 现有LLM安全评估缺乏可扩展性和定制性,难以应对快速发展的安全威胁和多样化的应用场景。
- Aymara AI通过程序化生成对抗性提示和AI驱动的评分器,实现了自动化、可定制的安全评估流程。
- 实验表明,不同LLM在不同安全领域表现差异显著,尤其在隐私和模仿等复杂领域存在明显不足。
📝 摘要(中文)
随着大型语言模型(LLMs)日益融入现实应用,可扩展且严谨的安全评估至关重要。本文介绍Aymara AI,一个用于生成和管理定制化、基于策略的安全评估的程序化平台。Aymara AI将自然语言安全策略转化为对抗性提示,并使用基于AI的评估器对模型响应进行评分,该评估器已通过人工判断验证。我们通过Aymara LLM风险与责任矩阵展示了其能力,该矩阵评估了20个商业LLM在10个真实世界安全领域中的表现。结果显示性能差异很大,平均安全分数从86.2%到52.4%不等。虽然模型在诸如错误信息等成熟的安全领域表现良好(平均=95.7%),但在更复杂或未明确指定的领域(特别是隐私与模仿,平均=24.3%)中始终失败。方差分析证实,安全分数在模型和领域之间存在显著差异(p < .05)。这些发现强调了LLM安全的不一致性和上下文依赖性,并突出了对像Aymara AI这样可扩展、可定制的工具的需求,以支持负责任的AI开发和监督。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)安全评估中缺乏可扩展性和定制性的问题。现有的安全评估方法通常依赖于人工评估,成本高昂且难以覆盖所有潜在的安全风险。此外,不同应用场景对安全的要求不同,现有的评估方法难以满足定制化的需求。
核心思路:论文的核心思路是利用程序化的方式自动生成对抗性提示,并使用AI驱动的评分器对LLM的响应进行评估。通过将自然语言安全策略转化为对抗性提示,可以有效地测试LLM在不同安全领域的表现。AI评分器可以模拟人类的判断,实现高效且一致的评估。
技术框架:Aymara AI平台包含以下主要模块:1) 安全策略定义模块:将自然语言安全策略转化为机器可读的格式。2) 对抗性提示生成模块:基于安全策略自动生成对抗性提示,用于测试LLM的安全性。3) LLM响应评估模块:使用AI评分器对LLM的响应进行评分,评估其在不同安全领域的表现。4) 结果分析模块:对评估结果进行分析,识别LLM的安全漏洞和潜在风险。
关键创新:Aymara AI的关键创新在于其程序化的安全评估方法,可以自动生成对抗性提示并使用AI评分器进行评估,从而实现可扩展且定制化的安全评估。与传统的人工评估方法相比,Aymara AI可以显著降低评估成本并提高评估效率。此外,Aymara AI还可以根据不同的安全策略生成定制化的评估方案,满足不同应用场景的需求。
关键设计:Aymara AI使用基于Transformer的AI评分器,该评分器经过人工标注数据的训练,可以准确地评估LLM的响应。对抗性提示的生成采用了多种策略,包括基于规则的生成、基于模型的生成和基于优化的生成。论文还采用了方差分析等统计方法,对评估结果进行深入分析,识别LLM的安全漏洞和潜在风险。
🖼️ 关键图片
📊 实验亮点
Aymara LLM风险与责任矩阵评估了20个商业LLM在10个真实世界安全领域中的表现,结果显示模型在不同安全领域表现差异显著,平均安全分数从86.2%到52.4%不等。模型在错误信息等成熟的安全领域表现良好(平均=95.7%),但在隐私与模仿等复杂领域表现较差(平均=24.3%)。方差分析证实,安全分数在模型和领域之间存在显著差异(p < .05)。
🎯 应用场景
该研究成果可应用于LLM的安全风险评估、安全策略制定和安全漏洞修复。Aymara AI平台可以帮助开发者和监管机构更好地了解LLM的安全性能,及时发现和解决安全问题,从而促进LLM的负责任发展和应用。该平台还可用于评估不同LLM的安全性能,为用户选择合适的LLM提供参考。
📄 摘要(原文)
As large language models (LLMs) become increasingly integrated into real-world applications, scalable and rigorous safety evaluation is essential. This paper introduces Aymara AI, a programmatic platform for generating and administering customized, policy-grounded safety evaluations. Aymara AI transforms natural-language safety policies into adversarial prompts and scores model responses using an AI-based rater validated against human judgments. We demonstrate its capabilities through the Aymara LLM Risk and Responsibility Matrix, which evaluates 20 commercially available LLMs across 10 real-world safety domains. Results reveal wide performance disparities, with mean safety scores ranging from 86.2% to 52.4%. While models performed well in well-established safety domains such as Misinformation (mean = 95.7%), they consistently failed in more complex or underspecified domains, notably Privacy & Impersonation (mean = 24.3%). Analyses of Variance confirmed that safety scores differed significantly across both models and domains (p < .05). These findings underscore the inconsistent and context-dependent nature of LLM safety and highlight the need for scalable, customizable tools like Aymara AI to support responsible AI development and oversight.