MUSE: MCTS-Driven Red Teaming Framework for Enhanced Multi-Turn Dialogue Safety in Large Language Models

作者: Siyu Yan, Long Zeng, Xuecheng Wu, Chengcheng Han, Kongcheng Zhang, Chong Peng, Xuezhi Cao, Xunliang Cai, Chenjuan Guo

分类: cs.CL, cs.AI

发布日期: 2025-09-18

备注: EMNLP 2025 main conference

🔗 代码/项目: GITHUB

💡 一句话要点

MUSE：基于MCTS的大语言模型多轮对话安全红队测试框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 多轮对话 安全对齐 红队测试 对抗攻击

📋 核心要点

现有大语言模型防御主要集中于单轮攻击，忽略了多轮对话中利用上下文绕过安全机制的风险。
MUSE框架通过MUSE-A进行攻击，利用框架语义和启发式搜索探索攻击路径；通过MUSE-D进行防御，在对话早期进行安全对齐。
实验表明，MUSE能有效识别并缓解大语言模型在多轮对话中的安全漏洞，提升模型安全性。

📝 摘要（中文）

随着大型语言模型（LLMs）的广泛应用，确保其与人类价值观对齐至关重要，以防止对抗性攻击利用模型生成有害内容。现有防御措施主要针对单轮攻击，但实际应用中常涉及多轮对话，模型易受利用对话上下文绕过安全措施的攻击。我们提出了MUSE，一个综合框架，从攻击和防御两个角度解决多轮越狱问题。在攻击方面，我们提出了MUSE-A，一种利用框架语义和启发式树搜索来探索多样语义轨迹的方法。在防御方面，我们提出了MUSE-D，一种细粒度的安全对齐方法，通过在对话早期进行干预来降低漏洞。在各种模型上的大量实验表明，MUSE有效地识别和缓解了多轮漏洞。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在多轮对话中容易受到对抗攻击，产生有害内容的问题。现有方法主要关注单轮攻击的防御，忽略了多轮对话中攻击者可以利用对话上下文，逐步引导模型突破安全限制的风险。因此，如何有效地识别和缓解多轮对话中的安全漏洞是一个重要的挑战。

核心思路：论文的核心思路是从攻击和防御两个角度出发，构建一个综合性的框架来解决多轮对话安全问题。在攻击方面，通过模拟攻击者的行为，探索不同的攻击路径，发现模型的潜在漏洞。在防御方面，通过在对话早期进行干预，对模型进行细粒度的安全对齐，从而降低模型被攻击的风险。

技术框架：MUSE框架包含两个主要模块：MUSE-A（攻击模块）和MUSE-D（防御模块）。MUSE-A利用框架语义和启发式树搜索（MCTS）来生成多样的攻击轨迹，探索模型在多轮对话中的脆弱性。MUSE-D则通过在对话的早期阶段进行干预，对模型进行安全对齐，从而减少模型被攻击的可能性。整个流程包括：(1) 使用MUSE-A生成对抗性对话；(2) 使用生成的对抗性对话评估模型的安全性；(3) 使用MUSE-D对模型进行安全对齐。

关键创新：MUSE的关键创新在于其综合性的攻击和防御框架，以及MUSE-A中利用框架语义和启发式树搜索来生成对抗性对话的方法。与传统的基于规则或梯度的攻击方法不同，MUSE-A能够更有效地探索多轮对话中的复杂攻击路径。MUSE-D的早期干预策略也与传统的后期检测和过滤方法不同，能够更有效地防止模型生成有害内容。

关键设计：MUSE-A的关键设计包括：(1) 框架语义的定义，用于描述对话的状态和转移；(2) 启发式树搜索（MCTS）的奖励函数，用于指导搜索过程，探索更有可能成功的攻击路径。MUSE-D的关键设计包括：(1) 细粒度的安全对齐目标，例如拒绝回答有害问题、避免生成有害内容等；(2) 早期干预的时机和方式，例如在对话的第二轮或第三轮进行干预，使用安全提示或约束来引导模型的行为。

📊 实验亮点

实验结果表明，MUSE-A能够有效地发现各种模型的安全漏洞，生成的对抗性对话成功率显著高于现有方法。同时，MUSE-D能够有效地提升模型的安全性，降低模型被攻击的风险。例如，在某些模型上，MUSE-D能够将对抗攻击的成功率降低50%以上。

🎯 应用场景

MUSE框架可应用于评估和提升大型语言模型在多轮对话场景下的安全性。该研究成果有助于开发者构建更安全、可靠的对话系统，减少模型被恶意利用的风险，从而促进大语言模型在各个领域的安全应用，例如智能客服、教育辅导和内容创作等。

📄 摘要（原文）

As large language models~(LLMs) become widely adopted, ensuring their alignment with human values is crucial to prevent jailbreaks where adversaries manipulate models to produce harmful content. While most defenses target single-turn attacks, real-world usage often involves multi-turn dialogues, exposing models to attacks that exploit conversational context to bypass safety measures. We introduce MUSE, a comprehensive framework tackling multi-turn jailbreaks from both attack and defense angles. For attacks, we propose MUSE-A, a method that uses frame semantics and heuristic tree search to explore diverse semantic trajectories. For defense, we present MUSE-D, a fine-grained safety alignment approach that intervenes early in dialogues to reduce vulnerabilities. Extensive experiments on various models show that MUSE effectively identifies and mitigates multi-turn vulnerabilities. Code is available at \href{https://github.com/yansiyu02/MUSE}{https://github.com/yansiyu02/MUSE}.

MUSE: MCTS-Driven Red Teaming Framework for Enhanced Multi-Turn Dialogue Safety in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册