Red Teaming Multimodal Language Models: Evaluating Harm Across Prompt Modalities and Models

📄 arXiv: 2509.15478v2 📥 PDF

作者: Madison Van Doren, Casey Ford

分类: cs.CL

发布日期: 2025-09-18 (更新: 2025-11-21)

期刊: AAAI 2026 AIGOV Workshop and EurIPS 2025 Workshop on Unifying Perspectives on Learning Biases


💡 一句话要点

红队测试揭示多模态大语言模型在不同模态提示下的安全漏洞

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 红队测试 安全评估 对抗性提示 有害内容

📋 核心要点

  1. 多模态大语言模型安全性评估不足,尤其是在对抗性攻击下,存在潜在风险。
  2. 通过红队生成对抗性提示,评估不同模型在文本和多模态输入下的有害响应。
  3. 实验表明模型安全性能差异显著,纯文本提示意外地更易绕过安全机制。

📝 摘要(中文)

本研究评估了四个领先的多模态大语言模型(MLLM):GPT-4o、Claude Sonnet 3.5、Pixtral 12B 和 Qwen VL Plus 在对抗性提示下的安全性。由 26 名红队成员生成了 726 个提示,针对非法活动、虚假信息和不道德行为三个危害类别。这些提示被提交给每个模型,并由 17 名标注员使用 5 分制评估了 2904 个模型输出的有害性。结果表明,不同模型和模态之间的脆弱性存在显著差异。Pixtral 12B 表现出最高的有害响应率(约 62%),而 Claude Sonnet 3.5 的抵抗力最强(约 10%)。与预期相反,纯文本提示在绕过安全机制方面略优于多模态提示。统计分析证实,模型类型和输入模态都是有害性的重要预测因素。这些发现强调了随着 MLLM 的广泛部署,迫切需要强大的多模态安全基准。

🔬 方法详解

问题定义:该论文旨在评估多模态大语言模型(MLLMs)在面对对抗性提示时的安全性,特别是其产生有害内容的能力。现有方法缺乏对MLLMs在不同模态输入下的全面安全评估,并且未能充分揭示模型在对抗性攻击下的脆弱性。

核心思路:论文的核心思路是通过红队测试(Red Teaming)的方式,模拟真实世界中的对抗性攻击,系统性地评估MLLMs在不同输入模态(文本和多模态)下的安全性能。通过精心设计的对抗性提示,诱导模型产生有害内容,从而揭示模型的安全漏洞。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 红队提示生成:由26名红队成员生成726个对抗性提示,针对非法活动、虚假信息和不道德行为三个危害类别。2) 模型评估:将生成的提示提交给四个MLLMs(GPT-4o, Claude Sonnet 3.5, Pixtral 12B, Qwen VL Plus),并记录模型的输出。3) 危害性评估:由17名标注员使用5分制评估模型输出的危害性。4) 统计分析:对评估结果进行统计分析,确定模型类型和输入模态对有害性的影响。

关键创新:该研究的关键创新在于:1) 系统性地评估了MLLMs在不同模态输入下的安全性能,弥补了现有研究的不足。2) 通过红队测试的方式,模拟真实世界中的对抗性攻击,更有效地揭示了模型的安全漏洞。3) 发现纯文本提示在绕过安全机制方面略优于多模态提示,这一发现与预期相反,具有重要的研究价值。

关键设计:在提示生成方面,红队成员被要求尽可能地设计出能够诱导模型产生有害内容的提示。在危害性评估方面,使用了5分制量表,对模型输出的危害程度进行细致的评估。在统计分析方面,使用了方差分析等统计方法,确定模型类型和输入模态对有害性的影响。

📊 实验亮点

实验结果表明,不同模型在安全性方面存在显著差异,Pixtral 12B 的有害响应率最高(约 62%),而 Claude Sonnet 3.5 的抵抗力最强(约 10%)。令人意外的是,纯文本提示在绕过安全机制方面略优于多模态提示,这表明现有 MLLM 的多模态安全防御可能存在盲点。

🎯 应用场景

该研究成果可应用于多模态大语言模型的安全评估与改进,帮助开发者识别和修复模型中的安全漏洞,提升模型的安全性和可靠性。此外,该研究也为多模态安全基准的构建提供了参考,促进人工智能安全领域的健康发展。

📄 摘要(原文)

Multimodal large language models (MLLMs) are increasingly used in real world applications, yet their safety under adversarial conditions remains underexplored. This study evaluates the harmlessness of four leading MLLMs (GPT-4o, Claude Sonnet 3.5, Pixtral 12B, and Qwen VL Plus) when exposed to adversarial prompts across text-only and multimodal formats. A team of 26 red teamers generated 726 prompts targeting three harm categories: illegal activity, disinformation, and unethical behaviour. These prompts were submitted to each model, and 17 annotators rated 2,904 model outputs for harmfulness using a 5-point scale. Results show significant differences in vulnerability across models and modalities. Pixtral 12B exhibited the highest rate of harmful responses (~62%), while Claude Sonnet 3.5 was the most resistant (~10%). Contrary to expectations, text-only prompts were slightly more effective at bypassing safety mechanisms than multimodal ones. Statistical analysis confirmed that both model type and input modality were significant predictors of harmfulness. These findings underscore the urgent need for robust, multimodal safety benchmarks as MLLMs are deployed more widely.