MUSE: MCTS-Driven Red Teaming Framework for Enhanced Multi-Turn Dialogue Safety in Large Language Models

作者: Siyu Yan, Long Zeng, Xuecheng Wu, Chengcheng Han, Kongcheng Zhang, Chong Peng, Xuezhi Cao, Xunliang Cai, Chenjuan Guo

分类: cs.CL, cs.AI

发布日期: 2025-09-18

备注: EMNLP 2025 main conference

🔗 代码/项目: GITHUB

💡 一句话要点

MUSE：基于MCTS的大语言模型多轮对话安全红队测试框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多轮对话 安全对齐 红队测试 对抗性攻击

📋 核心要点

现有大语言模型防御主要针对单轮攻击，忽略了多轮对话中利用上下文绕过安全措施的风险。
MUSE框架通过MUSE-A进行攻击，利用框架语义和启发式树搜索探索语义轨迹，并用MUSE-D进行防御，在对话早期进行细粒度安全对齐。
实验表明，MUSE能有效识别和缓解多轮对话中的安全漏洞，提升大语言模型在多轮场景下的安全性。

📝 摘要（中文）

随着大型语言模型（LLMs）的广泛应用，确保其与人类价值观对齐至关重要，以防止对抗性攻击者操纵模型产生有害内容。现有防御措施主要针对单轮攻击，但实际应用中通常涉及多轮对话，模型容易受到利用对话上下文绕过安全措施的攻击。本文提出了MUSE，一个全面的框架，从攻击和防御两个角度解决多轮越狱问题。在攻击方面，我们提出了MUSE-A，一种利用框架语义和启发式树搜索来探索多样化语义轨迹的方法。在防御方面，我们提出了MUSE-D，一种细粒度的安全对齐方法，通过在对话早期进行干预来减少漏洞。在各种模型上的大量实验表明，MUSE能够有效地识别和缓解多轮漏洞。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在多轮对话中存在的安全漏洞问题，即模型容易受到利用对话上下文的对抗性攻击，从而产生有害或不当内容。现有方法主要关注单轮攻击防御，缺乏对多轮对话场景下攻击的有效检测和防御机制。

核心思路：论文的核心思路是从攻击和防御两个角度出发，构建一个完整的红队测试框架。通过设计有效的攻击方法（MUSE-A）来发现模型漏洞，并提出相应的防御策略（MUSE-D）来提升模型的安全性。这种攻防结合的思路能够更全面地评估和提升模型的安全性。

技术框架：MUSE框架包含两个主要模块：MUSE-A（攻击模块）和MUSE-D（防御模块）。MUSE-A利用框架语义和启发式树搜索（MCTS）来生成多轮攻击序列，旨在发现模型在多轮对话中的漏洞。MUSE-D则通过在对话早期进行细粒度的安全对齐，来减少模型受到攻击的可能性。整体流程是先使用MUSE-A进行攻击测试，然后使用MUSE-D对模型进行防御性训练，从而提升模型的安全性。

关键创新：MUSE的关键创新在于其针对多轮对话场景的攻击和防御策略。MUSE-A利用框架语义来指导攻击序列的生成，并通过MCTS来探索不同的语义轨迹，从而更有效地发现模型漏洞。MUSE-D则通过在对话早期进行干预，避免模型在后续对话中产生有害内容。这种早期干预的策略能够更有效地防止模型受到攻击。

关键设计：MUSE-A的关键设计包括：1) 使用框架语义来表示对话状态，从而更好地理解对话的上下文信息；2) 使用MCTS来搜索最优的攻击序列，MCTS的奖励函数设计至关重要，需要平衡攻击成功率和攻击的多样性。MUSE-D的关键设计包括：1) 设计细粒度的安全对齐目标，例如避免模型产生仇恨言论或歧视性内容；2) 在对话的早期阶段对模型进行干预，例如通过修改模型的输入或输出，来引导模型产生更安全的内容。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MUSE-A能够有效地发现各种大型语言模型（包括LLaMA、GPT等）在多轮对话中存在的安全漏洞。与现有攻击方法相比，MUSE-A能够显著提高攻击成功率。同时，MUSE-D能够有效地提升模型的安全性，降低模型受到攻击的可能性。具体性能数据未知，但论文强调了MUSE在识别和缓解多轮漏洞方面的有效性。

🎯 应用场景

该研究成果可应用于提升各种大型语言模型在实际应用中的安全性，例如智能客服、聊天机器人等。通过MUSE框架，开发者可以更有效地发现和修复模型在多轮对话中存在的安全漏洞，从而降低模型产生有害或不当内容的风险，提升用户体验，并促进大语言模型在各个领域的安全可靠应用。

📄 摘要（原文）

As large language models~(LLMs) become widely adopted, ensuring their alignment with human values is crucial to prevent jailbreaks where adversaries manipulate models to produce harmful content. While most defenses target single-turn attacks, real-world usage often involves multi-turn dialogues, exposing models to attacks that exploit conversational context to bypass safety measures. We introduce MUSE, a comprehensive framework tackling multi-turn jailbreaks from both attack and defense angles. For attacks, we propose MUSE-A, a method that uses frame semantics and heuristic tree search to explore diverse semantic trajectories. For defense, we present MUSE-D, a fine-grained safety alignment approach that intervenes early in dialogues to reduce vulnerabilities. Extensive experiments on various models show that MUSE effectively identifies and mitigates multi-turn vulnerabilities. Code is available at \href{https://github.com/yansiyu02/MUSE}{https://github.com/yansiyu02/MUSE}.

MUSE: MCTS-Driven Red Teaming Framework for Enhanced Multi-Turn Dialogue Safety in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理