aiXamine: Simplified LLM Safety and Security

📄 arXiv: 2504.14985v2 📥 PDF

作者: Fatih Deniz, Dorde Popovic, Yazan Boshmaf, Euisuh Jeong, Minhaj Ahmad, Sanjay Chawla, Issa Khalil

分类: cs.CR, cs.AI

发布日期: 2025-04-21 (更新: 2025-04-23)


💡 一句话要点

aiXamine:简化LLM安全性和安全性的综合黑盒评估平台

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM安全 黑盒评估 对抗鲁棒性 公平性 隐私保护 基准测试 漏洞分析

📋 核心要点

  1. 现有LLM安全性评估缺乏统一平台,基准测试分散,评估流程复杂,难以全面评估模型风险。
  2. aiXamine通过集成40多个测试,覆盖八个关键安全维度,提供统一的黑盒评估框架,简化LLM安全性评估流程。
  3. 实验评估了50多个LLM,揭示了现有模型在对抗攻击、偏差和隐私方面的漏洞,并分析了不同模型架构的优劣。

📝 摘要(中文)

评估大型语言模型(LLM)的安全性和安全性仍然是一项复杂的任务,通常需要用户浏览零散的基准、数据集、指标和报告格式。为了解决这个挑战,我们提出了aiXamine,一个全面的LLM安全性和安全性黑盒评估平台。aiXamine集成了40多个测试(即基准),组织成八个关键服务,针对安全性和安全性的特定维度:对抗鲁棒性、代码安全性、公平性和偏差、幻觉、模型和数据隐私、分布外(OOD)鲁棒性、过度拒绝和安全对齐。该平台将评估结果聚合到每个模型的单个详细报告中,提供模型性能、测试示例和丰富的可视化效果的详细分解。我们使用aiXamine评估了50多个公开和专有的LLM,进行了2000多次检查。我们的研究结果揭示了领先模型中的显著漏洞,包括OpenAI的GPT-4o中对抗攻击的敏感性、xAI的Grok-3中的偏差输出以及Google的Gemini 2.0中的隐私弱点。此外,我们观察到开源模型在安全对齐、公平性和偏差以及OOD鲁棒性等特定服务中可以匹配或超过专有模型。最后,我们确定了蒸馏策略、模型大小、训练方法和架构选择之间的权衡。

🔬 方法详解

问题定义:当前LLM安全评估面临的主要问题是缺乏一个统一、全面的评估平台。现有的评估方法通常是零散的,依赖于各种不同的基准测试、数据集和评估指标,这使得用户难以系统地评估LLM的安全性,并识别潜在的风险和漏洞。此外,不同的评估方法可能采用不同的报告格式,进一步增加了评估的复杂性。

核心思路:aiXamine的核心思路是构建一个综合性的黑盒评估平台,该平台集成了多个安全相关的基准测试,并提供统一的评估流程和报告格式。通过这种方式,用户可以方便地使用aiXamine来评估LLM在不同安全维度上的表现,并快速识别潜在的风险和漏洞。

技术框架:aiXamine平台包含以下主要模块:1) 基准测试集成模块:该模块负责集成各种安全相关的基准测试,例如对抗鲁棒性测试、代码安全性测试、公平性和偏差测试等。2) 评估执行模块:该模块负责执行集成的基准测试,并收集评估结果。3) 报告生成模块:该模块负责将评估结果聚合到单个详细报告中,并提供模型性能、测试示例和丰富的可视化效果。4) 模型管理模块:该模块负责管理被评估的LLM,并提供模型信息和元数据。

关键创新:aiXamine的关键创新在于其综合性和易用性。它将多个安全相关的基准测试集成到一个统一的平台中,并提供统一的评估流程和报告格式,从而大大简化了LLM安全评估的流程。此外,aiXamine还提供了丰富的可视化效果,帮助用户更好地理解评估结果。

关键设计:aiXamine的关键设计包括:1) 选择合适的基准测试:aiXamine选择了40多个安全相关的基准测试,覆盖了LLM安全性的多个维度。2) 设计统一的评估流程:aiXamine设计了一个统一的评估流程,使得用户可以方便地使用不同的基准测试来评估LLM。3) 提供丰富的可视化效果:aiXamine提供了丰富的可视化效果,帮助用户更好地理解评估结果。

📊 实验亮点

aiXamine评估了50多个LLM,发现GPT-4o易受对抗攻击,Grok-3存在偏差输出,Gemini 2.0存在隐私弱点。同时,研究表明开源模型在特定安全维度上可与专有模型媲美,并揭示了蒸馏策略、模型大小等因素对模型安全性的影响。

🎯 应用场景

aiXamine可应用于LLM开发、部署和监管等多个领域。开发者可利用该平台评估和改进模型的安全性;企业可使用该平台评估第三方LLM的风险;监管机构可使用该平台制定LLM安全标准和评估方法,促进LLM技术的安全可靠发展。

📄 摘要(原文)

Evaluating Large Language Models (LLMs) for safety and security remains a complex task, often requiring users to navigate a fragmented landscape of ad hoc benchmarks, datasets, metrics, and reporting formats. To address this challenge, we present aiXamine, a comprehensive black-box evaluation platform for LLM safety and security. aiXamine integrates over 40 tests (i.e., benchmarks) organized into eight key services targeting specific dimensions of safety and security: adversarial robustness, code security, fairness and bias, hallucination, model and data privacy, out-of-distribution (OOD) robustness, over-refusal, and safety alignment. The platform aggregates the evaluation results into a single detailed report per model, providing a detailed breakdown of model performance, test examples, and rich visualizations. We used aiXamine to assess over 50 publicly available and proprietary LLMs, conducting over 2K examinations. Our findings reveal notable vulnerabilities in leading models, including susceptibility to adversarial attacks in OpenAI's GPT-4o, biased outputs in xAI's Grok-3, and privacy weaknesses in Google's Gemini 2.0. Additionally, we observe that open-source models can match or exceed proprietary models in specific services such as safety alignment, fairness and bias, and OOD robustness. Finally, we identify trade-offs between distillation strategies, model size, training methods, and architectural choices.