Triaging Threats to Specialized Guardrails

作者: Wenjie Jacky Mo, Xiaofei Wen, Rui Cai, Boyu Zhu, Sicong Jiang, Zihan Wang, Minglai Yang, Zhe Zhao, Muhao Chen

分类: cs.CR, cs.CL

发布日期: 2026-05-29

💡 一句话要点

提出RouteGuard：一种基于路由-专家框架的专业化安全防护方案

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 安全防护 大型语言模型 威胁检测 路由-专家框架 领域泛化

📋 核心要点

现有安全防护模型泛化性不足，无法有效应对不同威胁领域，且数据集覆盖不全面。
RouteGuard采用路由-专家框架，将对话分流至专门的专家模型，实现威胁特定检测。
实验表明，RouteGuard在细粒度威胁检测、领域外泛化和模块化扩展方面均优于现有方法。

📝 摘要（中文）

构建鲁棒的安全防护对于在各种实际应用中部署大型语言模型至关重要。然而，由于安全风险跨越不同的威胁领域，而现有数据集仅覆盖了零散的风险子集并依赖于不一致的分类法，因此这一目标仍然具有挑战性。因此，目前尚不清楚当前的防护措施是否可以推广到狭窄的评估设置之外。为了更好地理解防护模型的鲁棒性，我们首先引入了GuardZoo，这是一个统一的人工标注基准，包含32,460个样本，涵盖15个不同的不安全类别。在GuardZoo上的评估表明，单体防护措施会受到任务干扰：不同的威胁领域需要不同的决策边界，而这些边界难以压缩到单个模型中。因此，我们提出了RouteGuard，一种路由-专家框架，可将每个对话分流到专门的专家防护措施，以进行特定于威胁的检测。实验表明，RouteGuard改进了对强防护基线的细粒度威胁检测，在领域外评估下更好地泛化，并支持灵活的模块化扩展以应对新兴威胁。

🔬 方法详解

问题定义：现有的大型语言模型安全防护方案通常采用单体模型，难以有效应对各种复杂的安全威胁。不同威胁领域需要不同的决策边界，而将所有威胁压缩到一个模型中会导致任务干扰，降低检测精度和泛化能力。此外，现有的安全数据集覆盖范围有限，分类标准不统一，难以全面评估防护模型的鲁棒性。

核心思路：RouteGuard的核心思路是将复杂的安全防护任务分解为多个专家子任务，每个专家负责检测特定类型的威胁。通过一个路由模块，将输入对话分配给最相关的专家模型进行处理。这种分而治之的方法可以有效缓解任务干扰，提高检测精度和泛化能力。

技术框架：RouteGuard框架主要包含两个模块：路由模块和专家模块。路由模块负责根据输入对话的内容，预测其所属的威胁类别，并将对话路由到相应的专家模型。专家模块包含多个专门用于检测特定威胁的专家模型。每个专家模型都经过专门训练，以提高其在该威胁领域的检测精度。整体流程是：输入对话 -> 路由模块 -> 专家模型 -> 输出检测结果。

关键创新：RouteGuard的关键创新在于其路由-专家框架，该框架能够将复杂的安全防护任务分解为多个专门化的子任务，并根据输入对话的内容动态地选择合适的专家模型进行处理。这种方法可以有效缓解任务干扰，提高检测精度和泛化能力。与传统的单体模型相比，RouteGuard具有更好的模块化和可扩展性，可以方便地添加新的专家模型来应对新兴威胁。

关键设计：路由模块可以使用各种分类模型，例如基于Transformer的模型。专家模型可以使用各种文本分类模型，例如BERT、RoBERTa等。路由模块的训练目标是最大化分类准确率，专家模型的训练目标是最大化其在特定威胁领域的检测精度。可以使用交叉熵损失函数进行训练。关键参数包括路由模块和专家模型的网络结构、学习率、batch size等。

🖼️ 关键图片

📊 实验亮点

GuardZoo基准测试表明，单体防护模型在不同威胁领域存在显著的任务干扰。RouteGuard在GuardZoo上实现了比强基线模型更高的细粒度威胁检测精度，并在领域外评估中表现出更好的泛化能力。具体提升幅度未知，但论文强调了RouteGuard在多个关键指标上的优越性，证明了其路由-专家框架的有效性。

🎯 应用场景

RouteGuard可应用于各种需要安全防护的大型语言模型应用场景，例如智能客服、聊天机器人、内容审核等。它可以有效检测和过滤各种有害内容，例如仇恨言论、人身攻击、恶意欺骗等，从而提高用户体验和安全性。此外，RouteGuard的模块化设计使其易于扩展，可以方便地添加新的专家模型来应对新兴威胁，例如深度伪造、网络钓鱼等。

📄 摘要（原文）

Building robust safety guardrails is essential for deploying Large Language Models across diverse real-world applications. However, this goal remains challenging because safety risks span heterogeneous threat domains, while existing datasets cover only fragmented risk subsets and rely on inconsistent taxonomies. Consequently, it remains unclear whether current guardrails can generalize beyond narrow evaluation settings. To better understand the robustness of guardrail models, we first introduce GuardZoo, a unified human-annotated benchmark with 32,460 samples covering 15 distinct unsafe categories. Evaluation on GuardZoo reveals that monolithic guardrails suffer from task interference: different threat domains require distinct decision boundaries that are difficult to compress into a single model. We therefore propose RouteGuard, a router-expert framework that triages each conversation to specialized expert guardrails for threat-specific detection. Experiments show that RouteGuard improves fine-grained threat detection over strong guardrail baselines, generalizes better under out-of-domain evaluation, and supports flexible modular expansion to emerging threats.

Triaging Threats to Specialized Guardrails

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理