PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing

作者: Blazej Manczak, Eliott Zemour, Eric Lin, Vaikkunth Mugunthan

分类: cs.AI, cs.CL, cs.CR, cs.SE

发布日期: 2024-07-23

备注: ICML 2024 NextGenAISafety workshop version with links to implementation and dataset

🔗 代码/项目: GITHUB | HUGGINGFACE

💡 一句话要点

PrimeGuard：通过免调优路由实现安全且有用的LLM

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型安全 推理时防护 免调优路由 指令遵循 上下文学习

📋 核心要点

现有推理时防护（ITG）方法在语言模型安全性和有用性之间存在权衡，难以同时保证两者。
PrimeGuard通过结构化控制流，将请求路由到具有不同指令的LM自实例化，实现动态安全防护。
实验表明，PrimeGuard无需微调即可显著提高安全性，同时保持甚至提升了语言模型的有用性。

📝 摘要（中文）

部署语言模型（LM）需要输出既高质量又符合安全准则。虽然推理时防护（ITG）提供了一些解决方案，可以将模型输出分布转移到合规方向，但我们发现当前的方法难以平衡安全性和有用性。安全地解决不合规查询的ITG方法表现出较低的有用性，而那些优先考虑有用性的方法则在安全性方面妥协。我们将这种权衡称为防护税，类似于对齐税。为了解决这个问题，我们提出了PrimeGuard，一种利用结构化控制流的新型ITG方法。PrimeGuard将请求路由到具有不同指令的LM的不同自实例化，利用其固有的指令遵循能力和上下文学习。我们的免调优方法为每个查询动态编译系统设计者指南。我们构建并发布了safe-eval，一个多样化的红队安全基准。广泛的评估表明，PrimeGuard在没有微调的情况下，通过以下方式克服了防护税：（1）显著提高了对迭代越狱攻击的抵抗力；（2）在安全防护方面取得了最先进的结果；（3）匹配了对齐调整模型的有用性分数。广泛的评估表明，PrimeGuard在没有微调的情况下，优于所有竞争基线，并通过将安全响应的比例从61%提高到97%，并将最大模型的平均有用性分数从4.17提高到4.29，同时将攻击成功率从100%降低到8%，从而克服了防护税。

🔬 方法详解

问题定义：现有语言模型部署面临安全性和有用性的挑战。推理时防护（ITG）方法试图解决这个问题，但往往顾此失彼，要么牺牲有用性来保证安全性，要么牺牲安全性来保证有用性，存在“防护税”问题。现有方法缺乏一种有效机制，能够根据不同的查询动态调整安全策略，从而导致性能瓶颈。

核心思路：PrimeGuard的核心思路是利用语言模型本身强大的指令遵循能力和上下文学习能力，通过构建结构化的控制流，将不同的查询路由到具有不同安全指令的LM自实例化。这种方法避免了对模型进行微调，而是通过动态调整指令来适应不同的安全需求，从而在安全性和有用性之间取得更好的平衡。

技术框架：PrimeGuard的整体架构包含以下几个主要模块：1) 查询接收模块：接收用户的查询请求。2) 指令生成模块：根据查询内容和预设的安全策略，动态生成不同的安全指令。3) 路由模块：根据生成的指令，将查询路由到不同的LM自实例化。4) LM自实例化模块：包含多个具有不同安全指令的LM实例。5) 结果聚合模块：将不同LM实例的输出进行聚合，并返回给用户。

关键创新：PrimeGuard最重要的技术创新在于其免调优的路由机制。它避免了对模型进行微调，而是通过动态调整指令来实现安全防护。这种方法不仅降低了部署成本，还提高了模型的泛化能力。此外，PrimeGuard还引入了结构化控制流，使得安全策略的调整更加灵活和可控。

关键设计：PrimeGuard的关键设计包括：1) 指令生成策略：如何根据查询内容生成合适的安全指令？这需要仔细设计指令模板和规则。2) 路由策略：如何将查询路由到最合适的LM实例？这需要考虑不同LM实例的安全能力和查询的安全风险。3) 结果聚合策略：如何将不同LM实例的输出进行聚合，以获得最佳的安全性和有用性？这需要考虑不同输出的可信度和相关性。

🖼️ 关键图片

📊 实验亮点

PrimeGuard在safe-eval基准测试中表现出色，无需微调即可将安全响应的比例从61%提高到97%，平均有用性分数从4.17提高到4.29，同时将攻击成功率从100%降低到8%。这些结果表明，PrimeGuard能够有效克服“防护税”，在安全性和有用性之间取得显著提升。

🎯 应用场景

PrimeGuard可应用于各种需要安全可靠的语言模型服务的场景，例如智能客服、内容生成、代码生成等。它可以有效防止恶意攻击和不当内容生成，提高用户体验和安全性。未来，PrimeGuard有望成为构建安全可信AI系统的关键技术之一，促进语言模型在更多领域的应用。

📄 摘要（原文）

Deploying language models (LMs) necessitates outputs to be both high-quality and compliant with safety guidelines. Although Inference-Time Guardrails (ITG) offer solutions that shift model output distributions towards compliance, we find that current methods struggle in balancing safety with helpfulness. ITG Methods that safely address non-compliant queries exhibit lower helpfulness while those that prioritize helpfulness compromise on safety. We refer to this trade-off as the guardrail tax, analogous to the alignment tax. To address this, we propose PrimeGuard, a novel ITG method that utilizes structured control flow. PrimeGuard routes requests to different self-instantiations of the LM with varying instructions, leveraging its inherent instruction-following capabilities and in-context learning. Our tuning-free approach dynamically compiles system-designer guidelines for each query. We construct and release safe-eval, a diverse red-team safety benchmark. Extensive evaluations demonstrate that PrimeGuard, without fine-tuning, overcomes the guardrail tax by (1) significantly increasing resistance to iterative jailbreak attacks and (2) achieving state-of-the-art results in safety guardrailing while (3) matching helpfulness scores of alignment-tuned models. Extensive evaluations demonstrate that PrimeGuard, without fine-tuning, outperforms all competing baselines and overcomes the guardrail tax by improving the fraction of safe responses from 61% to 97% and increasing average helpfulness scores from 4.17 to 4.29 on the largest models, while reducing attack success rate from 100% to 8%. PrimeGuard implementation is available at https://github.com/dynamofl/PrimeGuard and safe-eval dataset is available at https://huggingface.co/datasets/dynamoai/safe_eval.

PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理