REVEAL: Multi-turn Evaluation of Image-Input Harms for Vision LLM

作者: Madhur Jindal, Saurabh Deshpande

分类: cs.CL, cs.AI

发布日期: 2025-05-07

备注: 13 pages (8 main), to be published in IJCAI 2025

💡 一句话要点

提出REVEAL框架，用于多轮对话中图像输入型视觉语言模型的有害性评估。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多轮对话 安全性评估 对抗攻击 错误信息

📋 核心要点

现有VLLM安全评估主要集中在单轮文本交互，忽略了多轮对话中图像输入可能引发的潜在危害。
REVEAL框架通过自动化图像挖掘、对抗数据生成和渐强攻击策略，实现了对VLLM多轮对话安全性的全面评估。
实验结果表明，多轮交互显著增加了VLLM的缺陷率，揭示了现有模型在处理复杂多模态输入时的脆弱性。

📝 摘要（中文）

视觉大型语言模型(VLLM)通过整合图像处理能力和文本理解能力，代表了人工智能的重大进步，从而增强了用户交互并扩展了应用领域。然而，其日益增长的复杂性带来了新的安全和伦理挑战，尤其是在多模态和多轮对话中。传统安全评估框架是为基于文本的单轮交互设计的，不足以应对这些复杂性。为了弥合这一差距，我们引入了REVEAL（负责任的视觉AI LLM评估）框架，这是一个可扩展的自动化流水线，用于评估VLLM中的图像输入危害。REVEAL包括自动化图像挖掘、合成对抗数据生成、使用渐强攻击策略的多轮对话扩展，以及通过GPT-4o等评估器进行的全面危害评估。我们广泛评估了五个最先进的VLLM，GPT-4o、Llama-3.2、Qwen2-VL、Phi3.5V和Pixtral，涵盖三个重要的危害类别：性危害、暴力和错误信息。我们的研究结果表明，与单轮评估相比，多轮交互导致更高的缺陷率，突显了VLLM中更深层次的漏洞。值得注意的是，GPT-4o表现出最平衡的性能，由我们的安全-可用性指数(SUI)衡量，其次是Pixtral。此外，错误信息成为一个需要加强上下文防御的关键领域。Llama-3.2表现出最高的MT缺陷率(16.55%)，而Qwen2-VL表现出最高的MT拒绝率(19.1%)。

🔬 方法详解

问题定义：现有视觉语言模型（VLLM）的安全评估主要集中在单轮文本交互上，忽略了多轮对话中图像输入可能引发的潜在危害。现有的评估方法无法有效捕捉VLLM在处理复杂、上下文相关的多模态输入时可能出现的安全漏洞，例如生成不当内容、传播错误信息或表现出有害偏见。

核心思路：REVEAL框架的核心思路是通过构建一个自动化、可扩展的评估流程，模拟真实世界中用户与VLLM进行多轮对话的场景。该框架利用对抗性数据生成和渐强攻击策略，逐步引导VLLM暴露其潜在的安全漏洞，从而更全面地评估其安全性。

技术框架：REVEAL框架包含以下主要模块：1) 自动化图像挖掘：从网络上自动收集图像数据，用于后续的对抗数据生成。2) 合成对抗数据生成：利用图像和文本生成对抗性样本，旨在触发VLLM的潜在安全漏洞。3) 多轮对话扩展：使用渐强攻击策略，逐步引导VLLM进行多轮对话，以暴露其在复杂交互中的安全问题。4) 危害评估：使用GPT-4o等评估器，对VLLM的输出进行全面评估，判断其是否存在性危害、暴力或错误信息等问题。

关键创新：REVEAL框架的关键创新在于其多轮对话评估方法和渐强攻击策略。与传统的单轮评估相比，多轮对话评估能够更全面地捕捉VLLM在处理复杂上下文时的安全漏洞。渐强攻击策略则通过逐步引导VLLM，使其更容易暴露其潜在的安全问题。

关键设计：REVEAL框架的关键设计包括：1) 对抗数据生成策略：使用多种方法生成对抗性图像和文本，以覆盖不同的安全风险。2) 渐强攻击策略：设计一系列对话模板，逐步引导VLLM暴露其安全漏洞。3) 安全-可用性指数(SUI)：用于综合评估VLLM的安全性和可用性，以找到最佳的平衡点。

🖼️ 关键图片

📊 实验亮点

实验结果表明，多轮交互显著增加了VLLM的缺陷率，Llama-3.2表现出最高的MT缺陷率(16.55%)，而Qwen2-VL表现出最高的MT拒绝率(19.1%)。GPT-4o在安全-可用性指数(SUI)上表现最佳，其次是Pixtral，表明其在安全性和可用性之间取得了较好的平衡。研究还发现，错误信息是VLLM需要加强上下文防御的一个关键领域。

🎯 应用场景

REVEAL框架可用于评估和改进各种视觉语言模型的安全性，例如在聊天机器人、图像搜索引擎和内容生成工具中使用的VLLM。通过识别和修复VLLM中的安全漏洞，可以减少其被用于传播有害信息、生成不当内容或表现出有害偏见的风险，从而提高用户体验和促进负责任的人工智能发展。

📄 摘要（原文）

Vision Large Language Models (VLLMs) represent a significant advancement in artificial intelligence by integrating image-processing capabilities with textual understanding, thereby enhancing user interactions and expanding application domains. However, their increased complexity introduces novel safety and ethical challenges, particularly in multi-modal and multi-turn conversations. Traditional safety evaluation frameworks, designed for text-based, single-turn interactions, are inadequate for addressing these complexities. To bridge this gap, we introduce the REVEAL (Responsible Evaluation of Vision-Enabled AI LLMs) Framework, a scalable and automated pipeline for evaluating image-input harms in VLLMs. REVEAL includes automated image mining, synthetic adversarial data generation, multi-turn conversational expansion using crescendo attack strategies, and comprehensive harm assessment through evaluators like GPT-4o. We extensively evaluated five state-of-the-art VLLMs, GPT-4o, Llama-3.2, Qwen2-VL, Phi3.5V, and Pixtral, across three important harm categories: sexual harm, violence, and misinformation. Our findings reveal that multi-turn interactions result in significantly higher defect rates compared to single-turn evaluations, highlighting deeper vulnerabilities in VLLMs. Notably, GPT-4o demonstrated the most balanced performance as measured by our Safety-Usability Index (SUI) followed closely by Pixtral. Additionally, misinformation emerged as a critical area requiring enhanced contextual defenses. Llama-3.2 exhibited the highest MT defect rate ($16.55 \%$) while Qwen2-VL showed the highest MT refusal rate ($19.1 \%$).

REVEAL: Multi-turn Evaluation of Image-Input Harms for Vision LLM

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理