GLiGuard: Schema-Conditioned Classification for LLM Safeguard
作者: Urchade Zaratiana, Mary Newhauser, George Hurn-Maloney, Ash Lewis
分类: cs.CL, cs.CR
发布日期: 2026-05-08
备注: 20 pages, 4 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出GLiGuard:一种基于模式条件分类的轻量级大模型安全防护框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大模型安全 内容审核 双向编码器 非自回归推理 模式条件分类 模型轻量化
📋 核心要点
- 现有大模型防护方案多采用大参数自回归模型,将分类任务转化为生成任务,导致推理延迟高且难以应对多维度的安全评估需求。
- GLiGuard引入模式条件双向编码器架构,通过将任务定义与标签语义结构化嵌入输入序列,实现单次前向传播完成多任务并行分类。
- 实验表明,0.3B参数的GLiGuard在九大基准测试中表现出与7B-27B模型相当的性能,同时显著降低了计算资源消耗并提升了推理吞吐量。
📝 摘要(中文)
确保大语言模型输出的安全性和合规性需要可扩展的实时内容审核。然而,当前最先进的防护模型依赖于7B至27B参数的自回归解码器,将本质上的分类问题转化为序列文本生成,导致高延迟且难以扩展至多维度评估。本文提出了GLiGuard,这是一个基于GLiNER2改进的0.3B参数模式条件双向编码器。其核心思想是将任务定义和标签语义作为结构化令牌模式直接编码到输入序列中,从而在单次非自回归前向传递中同时评估提示词安全、响应安全、拒绝检测、14种细粒度危害类别及11种越狱策略。该设计支持在推理时动态组合任务和标签块。在九个安全基准测试中,GLiGuard在模型体积缩小23-90倍的情况下,实现了与大型解码器模型相当的F1分数,同时吞吐量提升16倍,延迟降低17倍,证明了紧凑型双向编码器在降低推理成本的同时可保持高精度。
🔬 方法详解
问题定义:论文旨在解决大语言模型内容审核中“分类任务生成化”导致的计算冗余问题。现有方法依赖大规模自回归模型,不仅推理延迟高,且在处理多维度安全指标(如越狱、危害分类等)时扩展性极差。
核心思路:将安全审核重新定义为模式条件下的序列标注或分类问题。通过利用双向编码器(Encoder-only)的并行处理能力,摒弃自回归生成过程,直接通过输入端的模式(Schema)引导模型进行多标签分类。
技术框架:GLiGuard基于GLiNER2架构,将任务定义(如“检测越狱”)和标签语义(如“是/否”)转化为结构化令牌序列。模型在单次前向传递中,通过双向注意力机制同时处理提示词与响应,输出各维度的分类结果。
关键创新:引入“模式条件(Schema-Conditioned)”机制,使得模型不再固定于特定任务,而是通过输入端的Schema动态调整审核维度。这种非自回归设计实现了审核逻辑与模型参数的解耦,极大提升了推理效率。
关键设计:采用0.3B参数的紧凑型双向编码器,通过将任务定义嵌入输入序列,实现零样本或少样本下的灵活任务组合。该设计允许在推理阶段动态添加或移除审核维度,无需重新训练模型,显著降低了部署成本。
🖼️ 关键图片
📊 实验亮点
GLiGuard在九项主流安全基准测试中表现出色,F1分数与7B-27B参数的自回归模型持平。在性能指标上,其模型体积减少了23-90倍,推理吞吐量提升至16倍,延迟降低至原来的1/17,展现了极高的计算效率与工业部署潜力。
🎯 应用场景
GLiGuard适用于对实时性要求极高的大模型应用场景,如企业级API网关、实时聊天机器人及内容审核平台。其轻量化特性使其能够部署在边缘设备或资源受限的服务器上,为大模型提供低延迟、多维度的安全防护,有效防御越狱攻击及有害内容生成。
📄 摘要(原文)
Ensuring safe, policy-compliant outputs from large language models requires real-time content moderation that can scale across multiple safety dimensions. However, state-of-the-art guardrail models rely on autoregressive decoders with 7B--27B parameters, reformulating what is fundamentally a classification problem as sequential text generation, a design choice that incurs high latency and scales poorly to multi-aspect evaluation. In this work, we introduce \textbf{GLiGuard}, a 0.3B-parameter schema-conditioned bidirectional encoder adapted from GLiNER2 for LLM content moderation. The key idea is to encode task definitions and label semantics directly into the input sequence as structured token schemas, enabling simultaneous evaluation of prompt safety, response safety, refusal detection, 14 fine-grained harm categories, and 11 jailbreak strategies in a single non-autoregressive forward pass. This schema-conditioned design lets supported task and label blocks be composed directly in the input schema at inference time. Across nine established safety benchmarks, GLiGuard achieves F1 scores competitive with 7B--27B decoder-based guards despite being 23--90$\times$ smaller, while delivering up to 16$\times$ higher throughput and 17$\times$ lower latency. These results suggest that compact bidirectional encoders can approach the accuracy of much larger guard models while drastically reducing inference cost. Code and models are available at https://github.com/fastino-ai/GLiGuard.