MUSE: MCTS-Driven Red Teaming Framework for Enhanced Multi-Turn Dialogue Safety in Large Language Models

📄 arXiv: 2509.14651v1 📥 PDF

作者: Siyu Yan, Long Zeng, Xuecheng Wu, Chengcheng Han, Kongcheng Zhang, Chong Peng, Xuezhi Cao, Xunliang Cai, Chenjuan Guo

分类: cs.CL, cs.AI

发布日期: 2025-09-18

备注: EMNLP 2025 main conference

🔗 代码/项目: GITHUB


💡 一句话要点

MUSE:基于MCTS的大语言模型多轮对话安全红队测试框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 多轮对话 安全对齐 红队测试 对抗攻击

📋 核心要点

  1. 现有大语言模型防御主要集中于单轮攻击,忽略了多轮对话中利用上下文绕过安全机制的风险。
  2. MUSE框架通过MUSE-A进行攻击,利用框架语义和启发式搜索探索攻击路径;通过MUSE-D进行防御,在对话早期进行安全对齐。
  3. 实验表明,MUSE能有效识别并缓解大语言模型在多轮对话中的安全漏洞,提升模型安全性。

📝 摘要(中文)

随着大型语言模型(LLMs)的广泛应用,确保其与人类价值观对齐至关重要,以防止对抗性攻击利用模型生成有害内容。现有防御措施主要针对单轮攻击,但实际应用中常涉及多轮对话,模型易受利用对话上下文绕过安全措施的攻击。我们提出了MUSE,一个综合框架,从攻击和防御两个角度解决多轮越狱问题。在攻击方面,我们提出了MUSE-A,一种利用框架语义和启发式树搜索来探索多样语义轨迹的方法。在防御方面,我们提出了MUSE-D,一种细粒度的安全对齐方法,通过在对话早期进行干预来降低漏洞。在各种模型上的大量实验表明,MUSE有效地识别和缓解了多轮漏洞。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在多轮对话中容易受到对抗攻击,产生有害内容的问题。现有方法主要关注单轮攻击的防御,忽略了多轮对话中攻击者可以利用对话上下文,逐步引导模型突破安全限制的风险。因此,如何有效地识别和缓解多轮对话中的安全漏洞是一个重要的挑战。

核心思路:论文的核心思路是从攻击和防御两个角度出发,构建一个综合性的框架来解决多轮对话安全问题。在攻击方面,通过模拟攻击者的行为,探索不同的攻击路径,发现模型的潜在漏洞。在防御方面,通过在对话早期进行干预,对模型进行细粒度的安全对齐,从而降低模型被攻击的风险。

技术框架:MUSE框架包含两个主要模块:MUSE-A(攻击模块)和MUSE-D(防御模块)。MUSE-A利用框架语义和启发式树搜索(MCTS)来生成多样的攻击轨迹,探索模型在多轮对话中的脆弱性。MUSE-D则通过在对话的早期阶段进行干预,对模型进行安全对齐,从而减少模型被攻击的可能性。整个流程包括:(1) 使用MUSE-A生成对抗性对话;(2) 使用生成的对抗性对话评估模型的安全性;(3) 使用MUSE-D对模型进行安全对齐。

关键创新:MUSE的关键创新在于其综合性的攻击和防御框架,以及MUSE-A中利用框架语义和启发式树搜索来生成对抗性对话的方法。与传统的基于规则或梯度的攻击方法不同,MUSE-A能够更有效地探索多轮对话中的复杂攻击路径。MUSE-D的早期干预策略也与传统的后期检测和过滤方法不同,能够更有效地防止模型生成有害内容。

关键设计:MUSE-A的关键设计包括:(1) 框架语义的定义,用于描述对话的状态和转移;(2) 启发式树搜索(MCTS)的奖励函数,用于指导搜索过程,探索更有可能成功的攻击路径。MUSE-D的关键设计包括:(1) 细粒度的安全对齐目标,例如拒绝回答有害问题、避免生成有害内容等;(2) 早期干预的时机和方式,例如在对话的第二轮或第三轮进行干预,使用安全提示或约束来引导模型的行为。

📊 实验亮点

实验结果表明,MUSE-A能够有效地发现各种模型的安全漏洞,生成的对抗性对话成功率显著高于现有方法。同时,MUSE-D能够有效地提升模型的安全性,降低模型被攻击的风险。例如,在某些模型上,MUSE-D能够将对抗攻击的成功率降低50%以上。

🎯 应用场景

MUSE框架可应用于评估和提升大型语言模型在多轮对话场景下的安全性。该研究成果有助于开发者构建更安全、可靠的对话系统,减少模型被恶意利用的风险,从而促进大语言模型在各个领域的安全应用,例如智能客服、教育辅导和内容创作等。

📄 摘要(原文)

As large language models~(LLMs) become widely adopted, ensuring their alignment with human values is crucial to prevent jailbreaks where adversaries manipulate models to produce harmful content. While most defenses target single-turn attacks, real-world usage often involves multi-turn dialogues, exposing models to attacks that exploit conversational context to bypass safety measures. We introduce MUSE, a comprehensive framework tackling multi-turn jailbreaks from both attack and defense angles. For attacks, we propose MUSE-A, a method that uses frame semantics and heuristic tree search to explore diverse semantic trajectories. For defense, we present MUSE-D, a fine-grained safety alignment approach that intervenes early in dialogues to reduce vulnerabilities. Extensive experiments on various models show that MUSE effectively identifies and mitigates multi-turn vulnerabilities. Code is available at \href{https://github.com/yansiyu02/MUSE}{https://github.com/yansiyu02/MUSE}.