CourtGuard: A Model-Agnostic Framework for Zero-Shot Policy Adaptation in LLM Safety

📄 arXiv: 2602.22557v1 📥 PDF

作者: Umid Suleymanov, Rufiz Bayramov, Suad Gafarli, Seljan Musayeva, Taghi Mammadov, Aynur Akhundlu, Murat Kantarcioglu

分类: cs.AI, cs.LG

发布日期: 2026-02-26

备注: Under Review


💡 一句话要点

CourtGuard:一种零样本策略适应的LLM安全模型无关框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM安全 零样本学习 策略适应 多智能体系统 证据辩论 检索增强 对抗性攻击 AI治理

📋 核心要点

  1. 现有LLM安全机制依赖微调分类器,缺乏适应新策略的能力,需要昂贵的重新训练。
  2. CourtGuard通过检索增强的多智能体辩论框架,将安全评估转化为基于外部策略的证据辩论。
  3. CourtGuard在多个安全基准上表现出色,无需微调即可实现零样本策略适应,并能自动管理和审计对抗性攻击数据。

📝 摘要(中文)

现有大型语言模型(LLM)的安全机制严重依赖于静态的、微调后的分类器,这些分类器存在适应性僵化的问题,即在没有昂贵重新训练的情况下无法执行新的治理规则。为了解决这个问题,我们引入了CourtGuard,这是一个检索增强的多智能体框架,它将安全评估重新构想为证据辩论。通过组织一场基于外部策略文件的对抗性辩论,CourtGuard在7个安全基准测试中实现了最先进的性能,优于专门的策略遵循基线,且无需微调。除了标准指标外,我们还强调了两个关键能力:(1)零样本适应性,我们的框架通过交换参考策略成功地推广到领域外的维基百科破坏任务(达到90%的准确率);(2)自动化数据管理和审计,我们利用CourtGuard来管理和审计九个新颖的复杂对抗性攻击数据集。我们的结果表明,将安全逻辑与模型权重分离,为满足当前和未来人工智能治理的监管要求提供了一条稳健、可解释和适应性强的路径。

🔬 方法详解

问题定义:现有的大型语言模型安全机制依赖于静态微调的分类器,这些分类器在面对新的安全策略或规则时,需要进行昂贵的重新训练才能适应。这种“适应性僵化”限制了LLM在快速变化的监管环境中的应用,并且难以应对新型的对抗性攻击。

核心思路:CourtGuard的核心思路是将LLM的安全评估过程转化为一个证据辩论过程。通过引入多个智能体,分别扮演支持和反对的角色,基于外部的策略文档进行辩论,从而判断LLM的输出是否符合安全标准。这种方法将安全逻辑与模型权重解耦,实现了零样本的策略适应能力。

技术框架:CourtGuard框架主要包含以下几个模块:1) 检索模块:根据用户输入检索相关的策略文档;2) 智能体模块:包含多个智能体,分别负责提出支持和反对LLM输出安全性的论点;3) 辩论模块:智能体之间进行多轮辩论,互相挑战对方的论点;4) 判决模块:根据辩论结果,判断LLM的输出是否符合安全策略。

关键创新:CourtGuard最重要的创新在于其模型无关性(model-agnostic)和零样本适应性(zero-shot adaptability)。它不需要对LLM进行微调,而是通过外部的策略文档和智能体辩论来实现安全评估。这种方法使得CourtGuard可以快速适应新的安全策略,并且可以应用于不同的LLM。

关键设计:CourtGuard的关键设计包括:1) 使用检索增强来获取相关的策略文档;2) 设计具有不同角色的智能体,以促进全面的辩论;3) 使用多轮辩论来提高评估的准确性;4) 设计判决模块,根据辩论结果给出最终的安全性判断。具体的参数设置和损失函数等细节未在摘要中提及,属于未知信息。

📊 实验亮点

CourtGuard在7个安全基准测试中取得了最先进的性能,优于专门的策略遵循基线,且无需微调。在维基百科破坏任务中,通过更换参考策略,CourtGuard实现了90%的准确率,展示了其强大的零样本适应能力。此外,CourtGuard还被用于管理和审计九个新颖的复杂对抗性攻击数据集。

🎯 应用场景

CourtGuard可应用于各种需要LLM安全保障的场景,例如内容审核、金融风控、医疗诊断等。它能够帮助企业和组织快速适应新的监管要求,降低LLM应用的安全风险,并提高LLM的可信度和可靠性。未来,该框架有望成为AI治理的重要组成部分。

📄 摘要(原文)

Current safety mechanisms for Large Language Models (LLMs) rely heavily on static, fine-tuned classifiers that suffer from adaptation rigidity, the inability to enforce new governance rules without expensive retraining. To address this, we introduce CourtGuard, a retrieval-augmented multi-agent framework that reimagines safety evaluation as Evidentiary Debate. By orchestrating an adversarial debate grounded in external policy documents, CourtGuard achieves state-of-the-art performance across 7 safety benchmarks, outperforming dedicated policy-following baselines without fine-tuning. Beyond standard metrics, we highlight two critical capabilities: (1) Zero-Shot Adaptability, where our framework successfully generalized to an out-of-domain Wikipedia Vandalism task (achieving 90\% accuracy) by swapping the reference policy; and (2) Automated Data Curation and Auditing, where we leveraged CourtGuard to curate and audit nine novel datasets of sophisticated adversarial attacks. Our results demonstrate that decoupling safety logic from model weights offers a robust, interpretable, and adaptable path for meeting current and future regulatory requirements in AI governance.