VLSBench: Unveiling Visual Leakage in Multimodal Safety
作者: Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao
分类: cs.CR, cs.AI, cs.CL, cs.CV
发布日期: 2024-11-29 (更新: 2025-05-17)
备注: ACL2025 Main
🔗 代码/项目: GITHUB
💡 一句话要点
VLSBench:揭示多模态安全评估中视觉信息的文本泄露问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 安全性评估 视觉泄露 大型语言模型 基准测试 跨模态理解 安全对齐
📋 核心要点
- 现有MLLM安全评估基准存在视觉信息泄露,文本查询已暴露图像中的风险内容,导致评估结果失真。
- 提出VLSBench,通过自动数据管道构建无视觉泄露的图像-文本对,以更可靠地评估MLLM的安全性。
- 实验表明,VLSBench对现有MLLM构成挑战,并验证了在不同泄露情况下文本对齐和多模态对齐的有效性。
📝 摘要(中文)
多模态大型语言模型(MLLM)的安全性问题在各种应用中日益重要。然而,现有研究表明,使用文本解学习对齐MLLM与使用图像-文本对对齐MLLM,在安全性方面表现相当,这令人费解。为了解释这种现象,我们发现现有多模态安全基准测试中存在视觉安全信息泄露(VSIL)问题,即图像中潜在的风险内容已在文本查询中泄露。因此,MLLM仅根据文本查询即可轻松拒绝这些敏感的图像-文本对,导致对MLLM的跨模态安全性评估不可靠。我们还进行了文本对齐和多模态对齐之间的进一步比较实验,以突出这一缺点。为此,我们通过自动数据管道构建了包含2.2k个图像-文本对的多模态无视觉泄露安全基准(VLSBench)。实验结果表明,VLSBench对开源和闭源MLLM(如LLaVA、Qwen2-VL和GPT-4o)都构成了重大挑战。此外,我们凭经验比较了VLSBench上的文本和多模态对齐方法,发现文本对齐对于具有VSIL的多模态安全场景足够有效,而多模态对齐对于没有VSIL的安全场景更可取。代码和数据已在https://github.com/AI45Lab/VLSBench上发布。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLM)安全评估中存在的视觉信息泄露(VSIL)问题。现有方法依赖的基准测试中,文本查询包含了图像中的敏感信息,使得模型仅通过文本就能判断图像是否安全,从而无法真实评估其跨模态理解能力。这种泄露导致模型在安全性方面的表现被高估,使得研究人员难以有效提升MLLM的安全性。
核心思路:论文的核心思路是构建一个无视觉信息泄露的多模态安全基准测试集VLSBench。通过确保文本查询不包含任何与图像中风险内容相关的信息,从而迫使模型真正依赖于图像和文本的跨模态理解来判断安全性。这样可以更准确地评估MLLM的安全性,并促进更有效的安全对齐方法的研究。
技术框架:VLSBench的构建采用自动数据管道,主要包括以下几个阶段:1) 数据收集:收集包含潜在风险内容的图像和文本数据。2) 泄露检测:使用算法检测文本查询中是否包含与图像风险内容相关的线索。3) 数据过滤:移除或修改包含泄露信息的图像-文本对,确保基准测试集中的数据是无泄露的。4) 数据验证:人工审核部分数据,确保数据质量和无泄露性。
关键创新:论文的关键创新在于发现了现有MLLM安全评估基准中普遍存在的视觉信息泄露问题,并提出了构建无泄露基准测试集的系统方法。这种方法能够更准确地评估MLLM的跨模态安全能力,并为未来的安全对齐研究提供更可靠的评估平台。
关键设计:VLSBench包含2.2k个图像-文本对。在数据过滤阶段,论文可能使用了基于规则或机器学习的算法来检测文本查询中是否包含与图像风险内容相关的关键词或语义信息。具体的损失函数和网络结构设计未知,因为论文主要关注数据集的构建而非模型训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VLSBench对包括LLaVA、Qwen2-VL和GPT-4o在内的多种开源和闭源MLLM构成了显著挑战,表明现有模型在无视觉信息泄露的情况下安全性表现不佳。此外,实验还验证了在存在VSIL的情况下,文本对齐方法已经足够有效,而在没有VSIL的情况下,多模态对齐方法更为可取。
🎯 应用场景
该研究成果可应用于各种需要安全可靠的多模态交互的场景,例如智能客服、自动驾驶、医疗诊断等。通过使用VLSBench评估和改进MLLM的安全性,可以有效降低模型产生有害或不当输出的风险,从而提升用户体验和安全性。未来,该研究可以促进更安全、更可靠的多模态人工智能系统的发展。
📄 摘要(原文)
Safety concerns of Multimodal large language models (MLLMs) have gradually become an important problem in various applications. Surprisingly, previous works indicate a counterintuitive phenomenon that using textual unlearning to align MLLMs achieves comparable safety performances with MLLMs aligned with image text pairs. To explain such a phenomenon, we discover a Visual Safety Information Leakage (VSIL) problem in existing multimodal safety benchmarks, i.e., the potentially risky content in the image has been revealed in the textual query. Thus, MLLMs can easily refuse these sensitive image-text pairs according to textual queries only, leading to unreliable cross-modality safety evaluation of MLLMs. We also conduct a further comparison experiment between textual alignment and multimodal alignment to highlight this drawback. To this end, we construct multimodal Visual Leakless Safety Bench (VLSBench) with 2.2k image-text pairs through an automated data pipeline. Experimental results indicate that VLSBench poses a significant challenge to both open-source and close-source MLLMs, e.g., LLaVA, Qwen2-VL and GPT-4o. Besides, we empirically compare textual and multimodal alignment methods on VLSBench and find that textual alignment is effective enough for multimodal safety scenarios with VSIL, while multimodal alignment is preferable for safety scenarios without VSIL. Code and data are released under https://github.com/AI45Lab/VLSBench