REVEAL: Multi-turn Evaluation of Image-Input Harms for Vision LLM

📄 arXiv: 2505.04673v1 📥 PDF

作者: Madhur Jindal, Saurabh Deshpande

分类: cs.CL, cs.AI

发布日期: 2025-05-07

备注: 13 pages (8 main), to be published in IJCAI 2025


💡 一句话要点

提出REVEAL框架,用于多轮对话中图像输入型视觉语言模型的有害性评估。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多轮对话 安全性评估 对抗攻击 错误信息

📋 核心要点

  1. 现有VLLM安全评估主要集中在单轮文本交互,忽略了多轮对话中图像输入可能引发的潜在危害。
  2. REVEAL框架通过自动化图像挖掘、对抗数据生成和渐强攻击策略,实现了对VLLM多轮对话安全性的全面评估。
  3. 实验结果表明,多轮交互显著增加了VLLM的缺陷率,揭示了现有模型在处理复杂多模态输入时的脆弱性。

📝 摘要(中文)

视觉大型语言模型(VLLM)通过整合图像处理能力和文本理解能力,代表了人工智能的重大进步,从而增强了用户交互并扩展了应用领域。然而,其日益增长的复杂性带来了新的安全和伦理挑战,尤其是在多模态和多轮对话中。传统安全评估框架是为基于文本的单轮交互设计的,不足以应对这些复杂性。为了弥合这一差距,我们引入了REVEAL(负责任的视觉AI LLM评估)框架,这是一个可扩展的自动化流水线,用于评估VLLM中的图像输入危害。REVEAL包括自动化图像挖掘、合成对抗数据生成、使用渐强攻击策略的多轮对话扩展,以及通过GPT-4o等评估器进行的全面危害评估。我们广泛评估了五个最先进的VLLM,GPT-4o、Llama-3.2、Qwen2-VL、Phi3.5V和Pixtral,涵盖三个重要的危害类别:性危害、暴力和错误信息。我们的研究结果表明,与单轮评估相比,多轮交互导致更高的缺陷率,突显了VLLM中更深层次的漏洞。值得注意的是,GPT-4o表现出最平衡的性能,由我们的安全-可用性指数(SUI)衡量,其次是Pixtral。此外,错误信息成为一个需要加强上下文防御的关键领域。Llama-3.2表现出最高的MT缺陷率(16.55%),而Qwen2-VL表现出最高的MT拒绝率(19.1%)。

🔬 方法详解

问题定义:现有视觉语言模型(VLLM)的安全评估主要集中在单轮文本交互上,忽略了多轮对话中图像输入可能引发的潜在危害。现有的评估方法无法有效捕捉VLLM在处理复杂、上下文相关的多模态输入时可能出现的安全漏洞,例如生成不当内容、传播错误信息或表现出有害偏见。

核心思路:REVEAL框架的核心思路是通过构建一个自动化、可扩展的评估流程,模拟真实世界中用户与VLLM进行多轮对话的场景。该框架利用对抗性数据生成和渐强攻击策略,逐步引导VLLM暴露其潜在的安全漏洞,从而更全面地评估其安全性。

技术框架:REVEAL框架包含以下主要模块:1) 自动化图像挖掘:从网络上自动收集图像数据,用于后续的对抗数据生成。2) 合成对抗数据生成:利用图像和文本生成对抗性样本,旨在触发VLLM的潜在安全漏洞。3) 多轮对话扩展:使用渐强攻击策略,逐步引导VLLM进行多轮对话,以暴露其在复杂交互中的安全问题。4) 危害评估:使用GPT-4o等评估器,对VLLM的输出进行全面评估,判断其是否存在性危害、暴力或错误信息等问题。

关键创新:REVEAL框架的关键创新在于其多轮对话评估方法和渐强攻击策略。与传统的单轮评估相比,多轮对话评估能够更全面地捕捉VLLM在处理复杂上下文时的安全漏洞。渐强攻击策略则通过逐步引导VLLM,使其更容易暴露其潜在的安全问题。

关键设计:REVEAL框架的关键设计包括:1) 对抗数据生成策略:使用多种方法生成对抗性图像和文本,以覆盖不同的安全风险。2) 渐强攻击策略:设计一系列对话模板,逐步引导VLLM暴露其安全漏洞。3) 安全-可用性指数(SUI):用于综合评估VLLM的安全性和可用性,以找到最佳的平衡点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,多轮交互显著增加了VLLM的缺陷率,Llama-3.2表现出最高的MT缺陷率(16.55%),而Qwen2-VL表现出最高的MT拒绝率(19.1%)。GPT-4o在安全-可用性指数(SUI)上表现最佳,其次是Pixtral,表明其在安全性和可用性之间取得了较好的平衡。研究还发现,错误信息是VLLM需要加强上下文防御的一个关键领域。

🎯 应用场景

REVEAL框架可用于评估和改进各种视觉语言模型的安全性,例如在聊天机器人、图像搜索引擎和内容生成工具中使用的VLLM。通过识别和修复VLLM中的安全漏洞,可以减少其被用于传播有害信息、生成不当内容或表现出有害偏见的风险,从而提高用户体验和促进负责任的人工智能发展。

📄 摘要(原文)

Vision Large Language Models (VLLMs) represent a significant advancement in artificial intelligence by integrating image-processing capabilities with textual understanding, thereby enhancing user interactions and expanding application domains. However, their increased complexity introduces novel safety and ethical challenges, particularly in multi-modal and multi-turn conversations. Traditional safety evaluation frameworks, designed for text-based, single-turn interactions, are inadequate for addressing these complexities. To bridge this gap, we introduce the REVEAL (Responsible Evaluation of Vision-Enabled AI LLMs) Framework, a scalable and automated pipeline for evaluating image-input harms in VLLMs. REVEAL includes automated image mining, synthetic adversarial data generation, multi-turn conversational expansion using crescendo attack strategies, and comprehensive harm assessment through evaluators like GPT-4o. We extensively evaluated five state-of-the-art VLLMs, GPT-4o, Llama-3.2, Qwen2-VL, Phi3.5V, and Pixtral, across three important harm categories: sexual harm, violence, and misinformation. Our findings reveal that multi-turn interactions result in significantly higher defect rates compared to single-turn evaluations, highlighting deeper vulnerabilities in VLLMs. Notably, GPT-4o demonstrated the most balanced performance as measured by our Safety-Usability Index (SUI) followed closely by Pixtral. Additionally, misinformation emerged as a critical area requiring enhanced contextual defenses. Llama-3.2 exhibited the highest MT defect rate ($16.55 \%$) while Qwen2-VL showed the highest MT refusal rate ($19.1 \%$).