The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning
作者: Renmiao Chen, Yida Lu, Shiyao Cui, Xuan Ouyang, Victor Shea-Jay Huang, Shumin Zhang, Chengwei Pan, Han Qiu, Minlie Huang
分类: cs.CV, cs.CL
发布日期: 2026-01-20
备注: *15 pages, 5 figures. Introduces MIR-SafetyBench (2,676 instances; 9 multi-image relations). Equal contribution; †Corresponding author. Code/data: https://github.com/thu-coai/MIR-SafetyBench
🔗 代码/项目: GITHUB
💡 一句话要点
提出MIR-SafetyBench,揭示多图推理能力增强的大语言模型安全风险。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 多图推理 安全性评估 基准数据集 注意力熵
📋 核心要点
- 现有MLLM在多图推理能力提升的同时,安全风险评估不足,缺乏专门的评测基准。
- 提出MIR-SafetyBench,包含多种多图关系,用于评估MLLM在多图推理中的安全性。
- 实验表明,更强的多图推理能力可能导致更高的安全风险,模型可能过度关注任务解决而忽略安全约束。
📝 摘要(中文)
随着多模态大语言模型(MLLMs)在处理复杂的多图指令时获得更强的推理能力,这种进步也可能带来新的安全风险。本文通过引入MIR-SafetyBench来研究这个问题,MIR-SafetyBench是第一个专注于多图推理安全性的基准,包含2676个实例,涵盖9种多图关系。对19个MLLM的广泛评估揭示了一个令人不安的趋势:具有更高级多图推理能力的模型在MIR-SafetyBench上可能更容易受到攻击。除了攻击成功率,我们发现许多被标记为安全的回复是肤浅的,通常是由于误解或回避、不明确的回复驱动的。我们进一步观察到,不安全生成的注意力熵平均低于安全生成。这种内部特征表明,模型可能过度关注解决任务,而忽略了安全约束。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)在多图推理场景下的安全性问题。现有方法缺乏对MLLMs多图推理安全性的系统评估,尤其是在模型具备更强推理能力时,潜在的安全风险未被充分认识。现有方法难以有效识别和防范MLLMs在处理多图信息时可能产生的有害或不安全输出。
核心思路:论文的核心思路是构建一个专门用于评估MLLMs多图推理安全性的基准数据集MIR-SafetyBench。通过设计包含多种多图关系的测试用例,系统性地评估MLLMs在处理多图信息时是否会产生不安全或有害的输出。这种方法旨在揭示模型在追求更高推理能力时可能存在的安全漏洞。
技术框架:MIR-SafetyBench包含2676个实例,涵盖9种多图关系。评估流程包括:1) 向MLLM输入包含多图信息的指令;2) 分析MLLM的输出,判断其是否安全;3) 统计攻击成功率,并分析安全回复的质量;4) 分析安全和不安全回复的注意力熵,以识别内部特征。
关键创新:该论文的关键创新在于构建了首个专注于多图推理安全性的基准数据集MIR-SafetyBench。与现有方法相比,MIR-SafetyBench更关注MLLMs在处理多图信息时的安全性,并提供了一个系统性的评估框架。此外,论文还发现了一个有趣的现象:具有更强多图推理能力的模型可能更容易受到攻击,这与人们通常认为的“更智能的模型更安全”的直觉相反。
关键设计:MIR-SafetyBench的数据集设计考虑了多种多图关系,例如对象关系、空间关系、因果关系等,以全面评估MLLMs的多图推理能力。论文还分析了安全和不安全回复的注意力熵,发现不安全回复的注意力熵平均低于安全回复,这表明模型可能过度关注任务解决而忽略了安全约束。具体的参数设置、损失函数、网络结构等技术细节未在论文中详细描述,可能使用了现有MLLM的默认配置。
🖼️ 关键图片
📊 实验亮点
实验结果表明,具有更高级多图推理能力的MLLM在MIR-SafetyBench上可能更容易受到攻击。许多被标记为安全的回复是肤浅的,通常是由于误解或回避驱动的。不安全生成的注意力熵平均低于安全生成,表明模型可能过度关注任务解决而忽略了安全约束。具体攻击成功率数据和对比基线性能未在摘要中详细给出。
🎯 应用场景
该研究成果可应用于提升多模态大语言模型在图像理解、智能问答、视觉对话等领域的安全性。通过MIR-SafetyBench,开发者可以系统评估和改进MLLM的安全性能,降低模型产生有害或不安全输出的风险。该研究还有助于推动安全AI的发展,确保AI技术在各个领域的应用更加可靠和负责任。
📄 摘要(原文)
As Multimodal Large Language Models (MLLMs) acquire stronger reasoning capabilities to handle complex, multi-image instructions, this advancement may pose new safety risks. We study this problem by introducing MIR-SafetyBench, the first benchmark focused on multi-image reasoning safety, which consists of 2,676 instances across a taxonomy of 9 multi-image relations. Our extensive evaluations on 19 MLLMs reveal a troubling trend: models with more advanced multi-image reasoning can be more vulnerable on MIR-SafetyBench. Beyond attack success rates, we find that many responses labeled as safe are superficial, often driven by misunderstanding or evasive, non-committal replies. We further observe that unsafe generations exhibit lower attention entropy than safe ones on average. This internal signature suggests a possible risk that models may over-focus on task solving while neglecting safety constraints. Our code and data are available at https://github.com/thu-coai/MIR-SafetyBench.