Efficient and Adaptable Detection of Malicious LLM Prompts via Bootstrap Aggregation

作者: Shayan Ali Hassan, Tao Ni, Zafar Ayyub Qazi, Marco Canini

分类: cs.LG, cs.CR

发布日期: 2026-02-08

💡 一句话要点

提出BAGEL，通过自举聚合高效检测恶意LLM提示词

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 恶意提示检测 大型语言模型 自举聚合 集成学习 增量学习

📋 核心要点

现有LLM恶意提示检测方法存在局限性，黑盒API透明度低，白盒方法计算成本高，难以兼顾性能、效率和适应性。
BAGEL框架采用自举聚合和专家混合的集成方法，利用随机森林路由器选择合适的模型进行预测，实现高效检测。
实验表明，BAGEL仅用少量参数即可达到优于现有方法的性能，且具有良好的增量更新能力和可解释性。

📝 摘要（中文）

大型语言模型(LLMs)在自然语言理解、推理和生成方面表现出卓越的能力。然而，这些系统仍然容易受到恶意提示的影响，这些提示通过有害请求、越狱技术和提示注入攻击诱导不安全或违反策略的行为。现有的防御措施面临根本性的局限性：黑盒审核API的透明度有限，并且难以适应不断演变的威胁，而使用大型LLM判断器的白盒方法会带来过高的计算成本，并且需要昂贵的再训练才能应对新的攻击。目前的系统迫使设计者在性能、效率和适应性之间做出选择。为了应对这些挑战，我们提出了BAGEL（Bootstrap AGgregated Ensemble Layer），这是一个模块化、轻量级且可增量更新的恶意提示检测框架。BAGEL采用自举聚合和专家混合的集成方法，对微调模型进行集成，每个模型专门针对不同的攻击数据集。在推理时，BAGEL使用随机森林路由器来识别最合适的集成成员，然后应用随机选择来采样其他成员以进行预测聚合。当出现新的攻击时，BAGEL通过微调小型提示安全分类器（86M参数）并将生成的模型添加到集成中来增量更新。BAGEL仅选择5个集成成员（430M参数）即可达到0.92的F1分数，优于需要数十亿参数的OpenAI Moderation API和ShieldGemma。在九次增量更新后，性能仍然保持稳健，并且BAGEL通过其路由器的结构特征提供可解释性。我们的结果表明，小型微调分类器的集成可以匹配或超过数十亿参数的防护栏，同时提供生产系统所需的适应性和效率。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）中恶意提示词检测的问题。现有方法，如黑盒API和白盒LLM判断器，分别存在透明度不足、难以适应新攻击以及计算成本过高等痛点。这些方法无法在性能、效率和适应性之间取得平衡。

核心思路：论文的核心思路是利用小型、专门化的微调模型集成，并通过自举聚合（Bootstrap Aggregation）和专家混合（Mixture of Experts）的思想，构建一个轻量级、可增量更新的恶意提示词检测框架。通过集成多个小型模型，可以在保证性能的同时降低计算成本，并通过增量更新适应新的攻击模式。

技术框架：BAGEL框架主要包含以下几个模块：1) 数据集准备：收集各种恶意提示词攻击数据集，用于训练和评估模型。2) 模型微调：针对每个攻击数据集，微调一个小型提示安全分类器（86M参数）。3) 集成构建：将微调后的模型组成一个集成。4) 随机森林路由器：训练一个随机森林路由器，用于根据输入提示词的特征选择最合适的集成成员。5) 预测聚合：使用随机选择策略，从路由器选择的集成成员中采样多个模型，并将其预测结果进行聚合。6) 增量更新：当出现新的攻击时，微调一个新的小型分类器，并将其添加到集成中。

关键创新：BAGEL的关键创新在于其模块化、轻量级和可增量更新的设计。与传统的单一大模型方法相比，BAGEL通过集成多个小型模型，降低了计算成本，提高了效率。同时，BAGEL的增量更新机制使其能够快速适应新的攻击模式，而无需重新训练整个模型。随机森林路由器的使用也提高了模型的选择性和准确性。

关键设计：BAGEL的关键设计包括：1) 小型分类器：使用参数量较小的模型（86M参数）进行微调，以降低计算成本。2) 随机森林路由器：使用随机森林算法，根据输入提示词的特征（如词汇、语法等）选择最合适的集成成员。3) 随机选择策略：在预测聚合阶段，使用随机选择策略从路由器选择的集成成员中采样多个模型，以提高预测的鲁棒性。4) 增量更新机制：通过微调新的小型分类器并将其添加到集成中，实现模型的增量更新。

🖼️ 关键图片

📊 实验亮点

BAGEL在恶意提示词检测任务上取得了显著的性能提升。实验结果表明，BAGEL仅选择5个集成成员（430M参数）即可达到0.92的F1分数，优于需要数十亿参数的OpenAI Moderation API和ShieldGemma。此外，在经过九次增量更新后，BAGEL的性能仍然保持稳健，表明其具有良好的适应性和鲁棒性。

🎯 应用场景

BAGEL框架可应用于各种需要检测恶意LLM提示词的场景，例如在线聊天机器人、内容审核系统、代码生成工具等。该框架能够有效识别和阻止有害请求、越狱攻击和提示注入攻击，保障LLM的安全性和可靠性。此外，BAGEL的轻量级和可增量更新特性使其非常适合部署在资源受限的边缘设备上。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language understanding, reasoning, and generation. However, these systems remain susceptible to malicious prompts that induce unsafe or policy-violating behavior through harmful requests, jailbreak techniques, and prompt injection attacks. Existing defenses face fundamental limitations: black-box moderation APIs offer limited transparency and adapt poorly to evolving threats, while white-box approaches using large LLM judges impose prohibitive computational costs and require expensive retraining for new attacks. Current systems force designers to choose between performance, efficiency, and adaptability. To address these challenges, we present BAGEL (Bootstrap AGgregated Ensemble Layer), a modular, lightweight, and incrementally updatable framework for malicious prompt detection. BAGEL employs a bootstrap aggregation and mixture of expert inspired ensemble of fine-tuned models, each specialized on a different attack dataset. At inference, BAGEL uses a random forest router to identify the most suitable ensemble member, then applies stochastic selection to sample additional members for prediction aggregation. When new attacks emerge, BAGEL updates incrementally by fine-tuning a small prompt-safety classifier (86M parameters) and adding the resulting model to the ensemble. BAGEL achieves an F1 score of 0.92 by selecting just 5 ensemble members (430M parameters), outperforming OpenAI Moderation API and ShieldGemma which require billions of parameters. Performance remains robust after nine incremental updates, and BAGEL provides interpretability through its router's structural features. Our results show ensembles of small finetuned classifiers can match or exceed billion-parameter guardrails while offering the adaptability and efficiency required for production systems.

Efficient and Adaptable Detection of Malicious LLM Prompts via Bootstrap Aggregation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理