Broken-Token: Filtering Obfuscated Prompts by Counting Characters-Per-Token

作者: Shaked Zychlinski, Yuval Kainan

分类: cs.CR, cs.AI, cs.CL, cs.IT

发布日期: 2025-10-30

备注: 16 pages, 9 figures

💡 一句话要点

提出CPT-Filtering，通过统计单Token字符数过滤混淆提示词，防御LLM越狱攻击。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 提示词过滤 字节对编码 安全防护

📋 核心要点

现有LLM安全防护难以有效识别经过编码混淆的恶意提示词，导致越狱攻击风险。
CPT-Filtering通过计算文本的平均Token字符数，区分自然语言和编码文本，实现高效过滤。
实验证明，该方法在大量提示词和多种编码方案下，能高精度识别编码文本，且计算成本极低。

📝 摘要（中文）

大型语言模型（LLM）容易受到越狱攻击的影响，恶意提示词通过密码和字符级编码进行伪装，以绕过安全防护措施。虽然这些防护措施通常无法解释编码后的内容，但底层模型仍然可以处理有害指令。我们提出了一种新颖的、模型无关的、成本可忽略且具有近乎完美准确性的防护技术CPT-Filtering，旨在通过利用字节对编码（BPE）分词器的内在行为来缓解这些攻击。我们的方法基于这样的原则：在自然语言上训练的分词器，会使用明显更多的短token来表示分布外的文本，例如密码。我们的技术利用了使用语言模型的一个简单而强大的特性：文本中每个Token的平均字符数（CPT）。这种方法的动机是现代方法的高计算成本——依赖于诸如专用LLM或困惑度模型等附加模块。我们在超过10万个提示词的大型数据集上验证了我们的方法，使用几种流行的分词器测试了许多编码方案。我们的实验表明，一个简单的CPT阈值可以稳健地识别编码文本，具有很高的准确性，即使对于非常短的输入也是如此。CPT-Filtering提供了一个实用的防御层，可以立即部署用于实时文本过滤和离线数据整理。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）容易受到恶意提示词攻击的问题。这些攻击通常使用密码或字符级编码来混淆提示词，绕过LLM的安全防护机制。现有的安全防护方法，例如基于LLM或困惑度模型的检测方法，计算成本高昂，难以实时部署。

核心思路：论文的核心思路是利用字节对编码（BPE）分词器的特性。BPE分词器在自然语言上训练，对于分布外的文本（如编码后的文本），会将其分解成更多的、更短的token。因此，编码文本的平均每个token的字符数（CPT）会显著低于自然语言文本。通过设定一个CPT阈值，可以有效区分编码文本和自然语言文本。

技术框架：CPT-Filtering的整体框架非常简单。首先，使用LLM的分词器对输入文本进行分词。然后，计算文本的平均每个token的字符数（CPT）。最后，将计算出的CPT与预设的阈值进行比较。如果CPT低于阈值，则认为该文本是编码后的恶意提示词，并进行过滤。

关键创新：该方法最重要的创新点在于其简单性和高效性。与依赖于额外LLM或复杂模型的现有方法不同，CPT-Filtering仅需要计算CPT，计算成本几乎可以忽略不计。此外，该方法是模型无关的，可以应用于任何使用BPE分词器的LLM。

关键设计：关键设计在于CPT阈值的选择。阈值的选择需要根据具体的LLM和分词器进行调整。论文通过实验确定了合适的阈值范围。此外，论文还考虑了短文本的情况，并提出了一些优化策略，以提高短文本的检测准确率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CPT-Filtering在超过10万个提示词的大型数据集上，能够以高精度识别编码文本。即使对于非常短的输入，该方法也能保持较高的准确率。与现有的基于LLM或困惑度模型的检测方法相比，CPT-Filtering的计算成本极低，可以忽略不计。

🎯 应用场景

CPT-Filtering可用于实时过滤恶意提示词，保护LLM免受越狱攻击。该方法还可用于离线数据清洗，去除训练数据中的噪声和恶意样本。由于其高效性和模型无关性，CPT-Filtering可以广泛应用于各种LLM应用场景，提高LLM的安全性和可靠性。

📄 摘要（原文）

Large Language Models (LLMs) are susceptible to jailbreak attacks where malicious prompts are disguised using ciphers and character-level encodings to bypass safety guardrails. While these guardrails often fail to interpret the encoded content, the underlying models can still process the harmful instructions. We introduce CPT-Filtering, a novel, model-agnostic with negligible-costs and near-perfect accuracy guardrail technique that aims to mitigate these attacks by leveraging the intrinsic behavior of Byte-Pair Encoding (BPE) tokenizers. Our method is based on the principle that tokenizers, trained on natural language, represent out-of-distribution text, such as ciphers, using a significantly higher number of shorter tokens. Our technique uses a simple yet powerful artifact of using language models: the average number of Characters Per Token (CPT) in the text. This approach is motivated by the high compute cost of modern methods - relying on added modules such as dedicated LLMs or perplexity models. We validate our approach across a large dataset of over 100,000 prompts, testing numerous encoding schemes with several popular tokenizers. Our experiments demonstrate that a simple CPT threshold robustly identifies encoded text with high accuracy, even for very short inputs. CPT-Filtering provides a practical defense layer that can be immediately deployed for real-time text filtering and offline data curation.

Broken-Token: Filtering Obfuscated Prompts by Counting Characters-Per-Token

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理