SafeMT: Multi-turn Safety for Multimodal Language Models

📄 arXiv: 2510.12133v1 📥 PDF

作者: Han Zhu, Juntao Dai, Jiaming Ji, Haoran Li, Chengkun Cai, Pengcheng Wen, Chi-Min Chan, Boyuan Chen, Yaodong Yang, Sirui Han, Yike Guo

分类: cs.CL, cs.AI

发布日期: 2025-10-14


💡 一句话要点

提出SafeMT基准,评估多模态大语言模型在多轮对话中的安全性,并提出对话安全调节器

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 安全性 多轮对话 安全基准 对话安全调节器

📋 核心要点

  1. 现有MLLM安全基准未能充分考虑多轮对话场景,导致模型在实际应用中面临更高的安全风险。
  2. 提出SafeMT基准和安全指数(SI),用于评估MLLM在多轮对话中的安全性,并识别潜在的攻击风险。
  3. 设计对话安全调节器,通过检测恶意意图并提供安全策略,有效降低多轮对话中的攻击成功率。

📝 摘要(中文)

随着多模态大语言模型(MLLMs)的广泛应用,安全性问题日益突出。相比于单轮提示,在日常交互中更常见的多轮对话带来了更大的风险,但现有基准并未充分考虑这种情况。为了鼓励社区关注这些模型在多轮对话中的安全性问题,我们引入了SafeMT,这是一个包含10,000个样本的基准,其特征是包含有害查询和图像的、不同长度的对话,涵盖17种不同的场景和四种越狱方法。此外,我们提出了安全指数(SI)来评估对话期间MLLM的总体安全性。我们使用此基准评估了17个模型的安全性,发现随着有害对话轮数的增加,成功攻击这些模型的风险也会增加。这一观察结果表明,这些模型的安全机制不足以识别对话交互中的危害。我们提出了一种对话安全调节器,能够检测隐藏在对话中的恶意意图,并为MLLM提供相关的安全策略。来自几个开源模型的实验结果表明,与现有的防护模型相比,该调节器在降低多轮ASR方面更有效。

🔬 方法详解

问题定义:现有的大型多模态语言模型(MLLMs)在单轮对话中已经暴露出安全漏洞,但在更贴近实际应用的多轮对话场景下,其安全性问题更加严峻。现有的安全基准测试未能充分覆盖多轮对话,导致模型在复杂交互中更容易受到攻击,产生有害内容。因此,需要一个专门针对多轮对话的安全性评估基准,以及相应的防御机制。

核心思路:本研究的核心思路是构建一个包含多种攻击场景和越狱方法的多轮对话安全基准SafeMT,并利用该基准评估现有MLLMs的安全性。同时,设计一个对话安全调节器,通过检测对话中的恶意意图,并向MLLM提供相应的安全策略,从而提高模型在多轮对话中的安全性。

技术框架:整体框架包含两个主要部分:SafeMT基准的构建和对话安全调节器的设计。SafeMT基准包含10,000个样本,涵盖17种不同的场景和四种越狱方法,用于评估MLLM在多轮对话中的安全性。对话安全调节器则作为一个中间层,在用户输入和MLLM之间进行交互,检测恶意意图,并根据检测结果向MLLM提供安全策略。

关键创新:本研究的关键创新在于:1) 提出了SafeMT基准,这是首个专门针对MLLM多轮对话安全性的基准测试;2) 设计了对话安全调节器,能够有效检测隐藏在对话中的恶意意图,并提供相应的安全策略,从而提高MLLM在多轮对话中的安全性。

关键设计:SafeMT基准的设计考虑了多种攻击场景和越狱方法,确保了基准的全面性和挑战性。对话安全调节器的关键设计在于其恶意意图检测机制,具体实现细节未知,但其目标是准确识别对话中的潜在风险,并根据风险等级采取不同的安全策略。安全指数(SI)的计算方法也未知,但其目的是量化评估MLLM在多轮对话中的安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,随着对话轮数的增加,现有MLLM的攻击成功率显著提高,表明其安全机制在多轮对话中存在不足。所提出的对话安全调节器在多个开源模型上进行了测试,结果表明其在降低多轮ASR(Adversarial Success Rate,对抗成功率)方面优于现有的防护模型,证明了其有效性。

🎯 应用场景

该研究成果可应用于各种需要安全对话交互的场景,例如智能客服、虚拟助手、教育机器人等。通过SafeMT基准可以有效评估和提升MLLM在这些场景下的安全性,降低模型产生有害内容的风险,从而构建更安全、可靠的人工智能系统。未来,该研究可以进一步扩展到更多模态和更复杂的对话场景。

📄 摘要(原文)

With the widespread use of multi-modal Large Language models (MLLMs), safety issues have become a growing concern. Multi-turn dialogues, which are more common in everyday interactions, pose a greater risk than single prompts; however, existing benchmarks do not adequately consider this situation. To encourage the community to focus on the safety issues of these models in multi-turn dialogues, we introduce SafeMT, a benchmark that features dialogues of varying lengths generated from harmful queries accompanied by images. This benchmark consists of 10,000 samples in total, encompassing 17 different scenarios and four jailbreak methods. Additionally, we propose Safety Index (SI) to evaluate the general safety of MLLMs during conversations. We assess the safety of 17 models using this benchmark and discover that the risk of successful attacks on these models increases as the number of turns in harmful dialogues rises. This observation indicates that the safety mechanisms of these models are inadequate for recognizing the hazard in dialogue interactions. We propose a dialogue safety moderator capable of detecting malicious intent concealed within conversations and providing MLLMs with relevant safety policies. Experimental results from several open-source models indicate that this moderator is more effective in reducing multi-turn ASR compared to existed guard models.