Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security

作者: Muzhi Dai, Shixuan Liu, Zhiyuan Zhao, Junyu Gao, Hao Sun, Xuelong Li

分类: cs.CR, cs.AI

发布日期: 2025-07-29

备注: 10 pages, 4 figures

💡 一句话要点

提出SecTOW，通过强化学习迭代攻防训练提升多模态大模型的安全性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 安全性 jailbreak攻击 强化学习 迭代攻防训练

📋 核心要点

多模态大模型面临jailbreak攻击，现有方法如guardrail和SFT存在样本稀疏、依赖外部模块和过度拒绝等问题。
SecTOW采用迭代攻防训练，通过强化学习训练攻击者发现漏洞并扩展数据，再用扩展数据训练防御者。
SecTOW设计了奖励机制简化标签使用，并使用质量监控机制避免过度拒绝，实验表明能显著提高安全性并保持性能。

📝 摘要（中文）

多模态大型语言模型(MLLM)的快速发展带来了各种应用的突破，但其安全性仍然是一个关键挑战。一个紧迫的问题是存在不安全的图像-查询对，即专门设计用于绕过安全约束并引诱MLLM产生意外响应的jailbreak输入。与一般多模态数据相比，这种不安全输入相对稀疏，限制了用于开发鲁棒防御模型的训练样本的多样性和丰富性。同时，现有的guardrail类型方法依赖于外部模块来强制执行安全约束，但未能解决MLLM内部的固有漏洞。传统的监督微调(SFT)通常过度拒绝无害输入，从而损害了一般性能。鉴于这些挑战，我们提出了一种创新的迭代防御-攻击训练方法Secure Tug-of-War (SecTOW)来增强MLLM的安全性。SecTOW由一个防御者和一个辅助攻击者组成，两者都使用强化学习(GRPO)进行迭代训练。在迭代过程中，攻击者识别防御模型中的安全漏洞并扩展jailbreak数据。然后，扩展的数据用于训练防御者，使其能够解决已识别的安全漏洞。我们还设计了用于GRPO的奖励机制，以简化响应标签的使用，减少对复杂生成标签的依赖，并实现合成数据的有效利用。此外，使用质量监控机制来减轻防御者过度拒绝无害输入的情况，并确保攻击者生成的jailbreak数据的多样性。在安全特定和通用基准上的实验结果表明，SecTOW在提高安全性的同时显著保持了一般性能。

🔬 方法详解

问题定义：论文旨在解决多模态大模型（MLLM）容易受到jailbreak攻击，产生不安全输出的问题。现有方法，如guardrail机制，依赖外部模块，无法解决模型内部的脆弱性；而监督微调（SFT）虽然可以提高安全性，但容易过度拒绝正常的输入，损害模型的通用性能。此外，用于训练防御模型的jailbreak样本通常比较稀疏，限制了模型的鲁棒性。

核心思路：论文的核心思路是通过迭代的攻防训练来增强MLLM的安全性。具体来说，训练一个攻击者来发现防御模型的漏洞，并生成新的jailbreak样本；然后，使用这些新生成的样本来训练防御模型，从而提高其对jailbreak攻击的抵抗能力。这种迭代过程类似于拔河比赛，攻击者和防御者相互对抗，共同提高模型的安全性。

技术框架：SecTOW框架包含两个主要模块：防御者和辅助攻击者。这两个模块都使用强化学习（GRPO）进行训练。迭代过程如下：1) 攻击者利用当前防御者的漏洞生成jailbreak样本；2) 使用这些jailbreak样本训练防御者，提高其安全性；3) 评估防御者的性能，并使用评估结果更新攻击者的策略；4) 重复上述步骤，直到达到收敛或达到预定的迭代次数。此外，框架还包含一个质量监控机制，用于防止防御者过度拒绝正常输入，并确保攻击者生成的jailbreak样本的多样性。

关键创新：SecTOW的关键创新在于其迭代攻防训练的框架，以及使用强化学习来训练攻击者和防御者。与传统的监督学习方法相比，强化学习可以更好地探索攻击空间，发现更有效的jailbreak样本。此外，SecTOW的质量监控机制可以有效地平衡安全性和通用性能，避免过度拒绝正常输入。

关键设计：SecTOW使用GRPO（Gradient Regularized Policy Optimization）作为强化学习算法。奖励函数的设计至关重要，论文设计了奖励机制来简化响应标签的使用，减少对复杂生成标签的依赖，并实现合成数据的有效利用。质量监控机制通过监控防御者对正常输入的拒绝率来工作，如果拒绝率过高，则调整奖励函数，鼓励防御者接受更多正常输入。攻击者的目标是最大化jailbreak成功率，而防御者的目标是最小化jailbreak成功率，同时保持对正常输入的正确响应。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SecTOW在提高MLLM安全性的同时，能够保持甚至提升其通用性能。在安全基准测试中，SecTOW能够显著降低jailbreak攻击的成功率，同时在通用性能基准测试中，模型的准确率和召回率没有明显下降。这表明SecTOW能够有效地平衡安全性和通用性能，避免过度拒绝正常输入。

🎯 应用场景

SecTOW可应用于各种多模态大模型的安全增强，例如图像-文本检索、视觉问答、图像描述等。通过提高模型对恶意攻击的抵抗能力，可以减少模型被用于传播虚假信息、进行网络诈骗等恶意行为的风险，从而提升用户体验和维护社会安全。该方法也有助于推动多模态大模型在安全敏感领域的应用，如医疗诊断、金融风控等。

📄 摘要（原文）

The rapid advancement of multimodal large language models (MLLMs) has led to breakthroughs in various applications, yet their security remains a critical challenge. One pressing issue involves unsafe image-query pairs--jailbreak inputs specifically designed to bypass security constraints and elicit unintended responses from MLLMs. Compared to general multimodal data, such unsafe inputs are relatively sparse, which limits the diversity and richness of training samples available for developing robust defense models. Meanwhile, existing guardrail-type methods rely on external modules to enforce security constraints but fail to address intrinsic vulnerabilities within MLLMs. Traditional supervised fine-tuning (SFT), on the other hand, often over-refuses harmless inputs, compromising general performance. Given these challenges, we propose Secure Tug-of-War (SecTOW), an innovative iterative defense-attack training method to enhance the security of MLLMs. SecTOW consists of two modules: a defender and an auxiliary attacker, both trained iteratively using reinforcement learning (GRPO). During the iterative process, the attacker identifies security vulnerabilities in the defense model and expands jailbreak data. The expanded data are then used to train the defender, enabling it to address identified security vulnerabilities. We also design reward mechanisms used for GRPO to simplify the use of response labels, reducing dependence on complex generative labels and enabling the efficient use of synthetic data. Additionally, a quality monitoring mechanism is used to mitigate the defender's over-refusal of harmless inputs and ensure the diversity of the jailbreak data generated by the attacker. Experimental results on safety-specific and general benchmarks demonstrate that SecTOW significantly improves security while preserving general performance.

Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理