CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs

📄 arXiv: 2602.03263v1 📥 PDF

作者: Yuxuan Liu, Yuntian Shi, Kun Wang, Haoting Shen, Kun Yang

分类: cs.AI

发布日期: 2026-02-03

备注: 25 pages, 1 figures


💡 一句话要点

提出CSR-Bench,用于评估多模态大语言模型跨模态安全性和可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 安全性评估 跨模态可靠性 基准测试 图像文本理解

📋 核心要点

  1. 现有MLLM的安全性评估不足,容易受到单模态捷径影响,缺乏对跨模态联合意图理解的考察。
  2. CSR-Bench通过构建包含安全性、过度拒绝、偏见和幻觉等多种类型的测试用例,全面评估MLLM的跨模态可靠性。
  3. 实验结果表明,现有MLLM在跨模态对齐方面存在差距,且安全性和避免过度拒绝之间存在权衡。

📝 摘要(中文)

多模态大语言模型(MLLMs)能够通过文本和图像进行交互,但其安全性行为可能受到单模态捷径的驱动,而非真正的联合意图理解。我们引入了CSR-Bench,这是一个用于评估跨模态可靠性的基准,通过涵盖安全性、过度拒绝、偏见和幻觉四个压力测试交互模式,包含61个细粒度类型。每个实例都构建为需要集成的图像-文本解释,并且我们还提供配对的纯文本对照,以诊断模态诱导的行为转变。我们评估了16个最先进的MLLM,并观察到系统的跨模态对齐差距。模型表现出较弱的安全意识,干扰下强大的语言主导地位,以及从纯文本对照到多模态输入的一致性能下降。我们还观察到减少过度拒绝和保持安全、非歧视行为之间存在明显的权衡,这表明一些明显的安全收益可能来自拒绝导向的启发式方法,而不是强大的意图理解。警告:本文包含不安全内容。

🔬 方法详解

问题定义:现有MLLM的安全性评估存在局限性,容易受到单模态信息的影响,无法真正理解图像和文本的联合意图。这导致模型在处理涉及安全、偏见等敏感问题时,可能出现不安全或不合理的行为。现有方法缺乏一个全面的基准来系统地评估MLLM的跨模态安全性和可靠性。

核心思路:CSR-Bench的核心思路是通过构建一系列需要同时理解图像和文本信息的测试用例,来考察MLLM是否真正具备跨模态的推理能力。通过对比多模态输入和纯文本输入下的模型行为,可以诊断出模态诱导的行为转变,从而发现模型存在的安全隐患和偏见。

技术框架:CSR-Bench包含四个主要的压力测试交互模式:安全性(Safety)、过度拒绝(Over-rejection)、偏见(Bias)和幻觉(Hallucination)。每个模式下又包含多个细粒度的类型,总共61种。对于每个测试用例,都包含一个图像和一个文本描述,需要模型根据图像和文本的联合信息做出判断。同时,还提供对应的纯文本对照,用于对比分析。

关键创新:CSR-Bench的关键创新在于其对跨模态安全性和可靠性的全面评估。它不仅考察了模型在安全性方面的表现,还关注了过度拒绝、偏见和幻觉等问题。通过提供纯文本对照,可以更准确地诊断出模态诱导的行为转变。此外,CSR-Bench的测试用例设计需要模型进行复杂的图像-文本推理,从而更有效地评估模型的真实能力。

关键设计:CSR-Bench的测试用例设计需要仔细考虑图像和文本之间的关系,确保模型必须同时理解两者才能做出正确的判断。例如,在安全性测试中,会设计一些包含潜在危险行为的图像,并配以看似无害的文本描述,考察模型是否能够识别出潜在的风险。在偏见测试中,会设计一些涉及不同种族、性别等群体的图像和文本,考察模型是否存在歧视行为。具体的参数设置和损失函数取决于被评估的MLLM,CSR-Bench主要提供测试数据和评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

对16个最先进的MLLM的评估结果表明,模型在跨模态对齐方面存在差距,表现出较弱的安全意识和干扰下强大的语言主导地位。从纯文本对照到多模态输入,模型性能出现一致下降。同时,观察到减少过度拒绝和保持安全、非歧视行为之间存在权衡,表明一些安全收益可能来自拒绝导向的启发式方法。

🎯 应用场景

CSR-Bench可用于评估和改进多模态大语言模型的安全性和可靠性,帮助开发者发现模型存在的安全隐患和偏见,从而开发出更安全、更可靠的MLLM。该基准还可以促进对跨模态理解和推理的研究,推动人工智能技术在安全领域的应用,例如智能监控、自动驾驶等。

📄 摘要(原文)

Multimodal large language models (MLLMs) enable interaction over both text and images, but their safety behavior can be driven by unimodal shortcuts instead of true joint intent understanding. We introduce CSR-Bench, a benchmark for evaluating cross-modal reliability through four stress-testing interaction patterns spanning Safety, Over-rejection, Bias, and Hallucination, covering 61 fine-grained types. Each instance is constructed to require integrated image-text interpretation, and we additionally provide paired text-only controls to diagnose modality-induced behavior shifts. We evaluate 16 state-of-the-art MLLMs and observe systematic cross-modal alignment gaps. Models show weak safety awareness, strong language dominance under interference, and consistent performance degradation from text-only controls to multimodal inputs. We also observe a clear trade-off between reducing over-rejection and maintaining safe, non-discriminatory behavior, suggesting that some apparent safety gains may come from refusal-oriented heuristics rather than robust intent understanding. WARNING: This paper contains unsafe contents.