When Helpers Become Hazards: A Benchmark for Analyzing Multimodal LLM-Powered Safety in Daily Life

📄 arXiv: 2601.04043v1 📥 PDF

作者: Xinyue Lou, Jinan Xu, Jingyi Yin, Xiaolong Wang, Zhaolu Kang, Youwei Liao, Yixuan Wang, Xiangyu Shi, Fengran Mo, Su Yao, Kaiyu Huang

分类: cs.CL

发布日期: 2026-01-07

🔗 代码/项目: GITHUB


💡 一句话要点

提出SaLAD:用于评估多模态LLM在日常生活中安全性的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 安全性评估 安全对齐 基准数据集 风险识别 跨模态推理

📋 核心要点

  1. 现有的多模态大语言模型在识别日常生活中潜在危险行为方面存在不足,容易产生不安全或过度敏感的响应。
  2. SaLAD基准通过构建包含真实图像-文本对的数据集,并结合安全警告评估框架,来更有效地评估MLLM的安全性。
  3. 实验结果表明,即使是经过安全对齐的模型,在SaLAD基准上表现仍然欠佳,突显了现有方法的局限性。

📝 摘要(中文)

随着多模态大型语言模型(MLLM)在人类生活中变得不可或缺,MLLM生成的不安全内容对人类行为构成了威胁,像达摩克利斯之剑一样悬在人类社会之上。为了调查和评估MLLM响应对日常生活中人类行为的安全影响,我们引入了SaLAD,这是一个多模态安全基准,包含2013个真实世界的图像-文本样本,涵盖10个常见类别,采用平衡设计,既包含不安全场景,也包含过度敏感的情况。它强调现实的风险暴露、真实的视觉输入和细粒度的跨模态推理,确保安全风险不能仅从文本中推断出来。我们进一步提出了一个基于安全警告的评估框架,鼓励模型提供清晰且信息丰富的安全警告,而不是通用的拒绝。在18个MLLM上的结果表明,性能最佳的模型在不安全查询上的安全响应率仅为57.2%。此外,即使是流行的安全对齐方法也限制了模型在我们场景中的有效性,揭示了当前MLLM在识别日常生活中危险行为方面的漏洞。我们的数据集可在https://github.com/xinyuelou/SaLAD上获取。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在日常生活中应用时,可能产生不安全内容并对人类行为造成潜在危害的问题。现有方法难以准确识别图像-文本结合场景下的安全风险,容易出现误判或过度敏感的情况,缺乏一个专门针对此类场景的评估基准。

核心思路:论文的核心思路是构建一个更贴近真实场景的多模态安全基准SaLAD,并设计一个基于安全警告的评估框架。通过包含真实图像和文本描述,以及细粒度的跨模态推理要求,来更全面地评估MLLM的安全性能。鼓励模型提供清晰、具体的安全警告,而非简单的拒绝回答。

技术框架:SaLAD基准包含2013个图像-文本样本,涵盖10个常见类别,包括不安全场景和过度敏感场景。评估框架要求模型对每个样本生成响应,并根据响应是否包含清晰、具体的安全警告来判断其安全性。整体流程包括数据收集与标注、模型推理、安全评估三个阶段。

关键创新:该论文的关键创新在于:1) 提出了一个更具真实性和挑战性的多模态安全基准SaLAD,强调视觉信息的重要性,避免仅从文本推断安全风险;2) 设计了一个基于安全警告的评估框架,鼓励模型提供更具信息量的安全响应,而非简单的拒绝。与现有方法相比,SaLAD更关注实际风险暴露和细粒度的跨模态推理。

关键设计:SaLAD数据集的设计考虑了场景的多样性和平衡性,确保涵盖各种常见的不安全场景和过度敏感情况。评估框架中,安全警告的定义需要清晰明确,避免歧义。具体而言,需要判断模型是否能够识别图像和文本中存在的潜在风险,并给出相应的警告信息。

📊 实验亮点

在SaLAD基准上,即使是性能最佳的MLLM,其安全响应率也仅为57.2%,表明现有模型的安全性仍有待提高。实验还发现,流行的安全对齐方法在SaLAD基准上的效果有限,突显了现有方法在处理复杂多模态安全问题时的不足。这些结果表明,SaLAD是一个具有挑战性和实用价值的评估基准。

🎯 应用场景

该研究成果可应用于评估和改进多模态大语言模型在实际应用中的安全性,例如智能家居、自动驾驶、医疗辅助等领域。通过SaLAD基准,可以更好地发现和解决MLLM的安全漏洞,降低其在日常生活中造成危害的风险,促进安全可靠的人工智能应用。

📄 摘要(原文)

As Multimodal Large Language Models (MLLMs) become an indispensable assistant in human life, the unsafe content generated by MLLMs poses a danger to human behavior, perpetually overhanging human society like a sword of Damocles. To investigate and evaluate the safety impact of MLLMs responses on human behavior in daily life, we introduce SaLAD, a multimodal safety benchmark which contains 2,013 real-world image-text samples across 10 common categories, with a balanced design covering both unsafe scenarios and cases of oversensitivity. It emphasizes realistic risk exposure, authentic visual inputs, and fine-grained cross-modal reasoning, ensuring that safety risks cannot be inferred from text alone. We further propose a safety-warning-based evaluation framework that encourages models to provide clear and informative safety warnings, rather than generic refusals. Results on 18 MLLMs demonstrate that the top-performing models achieve a safe response rate of only 57.2% on unsafe queries. Moreover, even popular safety alignment methods limit effectiveness of the models in our scenario, revealing the vulnerabilities of current MLLMs in identifying dangerous behaviors in daily life. Our dataset is available at https://github.com/xinyuelou/SaLAD.