CourtGuard: A Model-Agnostic Framework for Zero-Shot Policy Adaptation in LLM Safety

📄 arXiv: 2602.22557 📥 PDF

作者: Umid Suleymanov, Rufiz Bayramov, Suad Gafarli, Seljan Musayeva, Taghi Mammadov, Aynur Akhundlu, Murat Kantarcioglu

分类: cs.AI, cs.LG

发布日期: 2026-02-28


💡 一句话要点

CourtGuard:一种模型无关的零样本策略适应框架,用于提升LLM安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM安全 零样本学习 策略适应 多智能体系统 检索增强 对抗性辩论 AI治理 内容审核

📋 核心要点

  1. 现有LLM安全机制依赖静态微调分类器,难以适应新的治理规则,需要昂贵的重新训练。
  2. CourtGuard将安全评估视为证据辩论,通过检索增强的多智能体框架,实现零样本策略适应。
  3. CourtGuard在多个安全基准上超越现有方法,并成功应用于维基百科破坏检测,展示了强大的泛化能力。

📝 摘要(中文)

本文提出CourtGuard,一个检索增强的多智能体框架,将安全评估重新定义为证据辩论,旨在解决大型语言模型(LLM)现有安全机制依赖于静态微调分类器导致的适应性不足问题。CourtGuard通过组织基于外部策略文档的对抗性辩论,在7个安全基准测试中实现了最先进的性能,优于专门的策略遵循基线,且无需微调。该框架展现出两个关键能力:(1)零样本适应性,通过更换参考策略成功泛化到领域外的维基百科破坏任务(达到90%的准确率);(2)自动化数据管理和审计,利用CourtGuard管理和审计了九个复杂对抗性攻击的新数据集。结果表明,将安全逻辑与模型权重分离,为满足当前和未来的AI治理监管要求提供了一条稳健、可解释和适应性强的途径。

🔬 方法详解

问题定义:现有大型语言模型(LLM)的安全机制严重依赖于静态的、经过微调的分类器。这种方法的主要痛点在于“适应性僵化”,即当需要执行新的治理规则时,必须进行昂贵的模型重新训练。这使得LLM难以快速响应不断变化的安全需求和监管要求。

核心思路:CourtGuard的核心思路是将LLM的安全评估过程重新定义为一个“证据辩论”过程。它不再依赖于预先训练好的安全分类器,而是通过模拟一个对抗性的辩论环境,让多个智能体根据外部策略文档进行辩论,从而判断LLM的输出是否安全。这种方法的核心优势在于,它将安全逻辑与模型权重解耦,从而实现了零样本的策略适应能力。

技术框架:CourtGuard框架主要包含以下几个关键模块:1) 检索模块:根据用户输入检索相关的策略文档。2) 提议者(Proposer):生成LLM的回复,并提出该回复符合安全策略的论点。3) 批评者(Critic):根据检索到的策略文档,对提议者的论点进行反驳,试图证明LLM的回复违反了安全策略。4) 仲裁者(Arbiter):根据提议者和批评者的论点,判断LLM的回复是否安全。整个过程模拟了一个法庭辩论,通过多轮的对抗性辩论,最终确定LLM输出的安全性。

关键创新:CourtGuard最重要的技术创新在于其模型无关的架构和零样本策略适应能力。与传统的微调方法不同,CourtGuard不需要针对每个新的安全策略进行重新训练。它通过检索相关的策略文档,并利用多智能体辩论来动态地评估LLM的输出是否安全。这种方法使得CourtGuard能够快速适应新的安全需求和监管要求。

关键设计:CourtGuard的关键设计包括:1) 使用检索增强来获取相关的策略文档。2) 设计了提议者和批评者两个角色,模拟对抗性辩论。3) 使用仲裁者来综合提议者和批评者的论点,做出最终的判断。此外,CourtGuard还使用了特定的提示工程技术,来引导LLM生成高质量的论点。具体的参数设置和损失函数等技术细节在论文中进行了详细描述。

📊 实验亮点

CourtGuard在7个安全基准测试中取得了最先进的性能,超越了专门的策略遵循基线,且无需微调。在维基百科破坏检测任务中,通过更换参考策略,CourtGuard实现了90%的准确率,展示了强大的零样本适应能力。此外,CourtGuard还被用于管理和审计了九个复杂对抗性攻击的新数据集。

🎯 应用场景

CourtGuard的应用场景广泛,包括但不限于:AI内容审核、自动化合规检查、安全策略快速部署、以及对抗性攻击检测与防御。该框架能够帮助企业和组织更有效地管理和控制LLM的安全性,降低安全风险,并满足不断变化的监管要求。其零样本适应能力使其在快速迭代的AI应用场景中具有显著优势。

📄 摘要(原文)

Current safety mechanisms for Large Language Models (LLMs) rely heavily on static, fine-tuned classifiers that suffer from adaptation rigidity, the inability to enforce new governance rules without expensive retraining. To address this, we introduce CourtGuard, a retrieval-augmented multi-agent framework that reimagines safety evaluation as Evidentiary Debate. By orchestrating an adversarial debate grounded in external policy documents, CourtGuard achieves state-of-the-art performance across 7 safety benchmarks, outperforming dedicated policy-following baselines without fine-tuning. Beyond standard metrics, we highlight two critical capabilities: (1) Zero-Shot Adaptability, where our framework successfully generalized to an out-of-domain Wikipedia Vandalism task (achieving 90\% accuracy) by swapping the reference policy; and (2) Automated Data Curation and Auditing, where we leveraged CourtGuard to curate and audit nine novel datasets of sophisticated adversarial attacks. Our results demonstrate that decoupling safety logic from model weights offers a robust, interpretable, and adaptable path for meeting current and future regulatory requirements in AI governance.