Broken-Token: Filtering Obfuscated Prompts by Counting Characters-Per-Token

📄 arXiv: 2510.26847v1 📥 PDF

作者: Shaked Zychlinski, Yuval Kainan

分类: cs.CR, cs.AI, cs.CL, cs.IT

发布日期: 2025-10-30

备注: 16 pages, 9 figures


💡 一句话要点

提出CPT-Filtering,通过统计单Token字符数过滤混淆提示词,防御LLM越狱攻击。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 提示词过滤 字节对编码 安全防护

📋 核心要点

  1. 现有LLM安全防护难以有效识别经过编码混淆的恶意提示词,导致越狱攻击风险。
  2. CPT-Filtering通过计算文本的平均Token字符数,区分自然语言和编码文本,实现高效过滤。
  3. 实验证明,该方法在大量提示词和多种编码方案下,能高精度识别编码文本,且计算成本极低。

📝 摘要(中文)

大型语言模型(LLM)容易受到越狱攻击的影响,恶意提示词通过密码和字符级编码进行伪装,以绕过安全防护措施。虽然这些防护措施通常无法解释编码后的内容,但底层模型仍然可以处理有害指令。我们提出了一种新颖的、模型无关的、成本可忽略且具有近乎完美准确性的防护技术CPT-Filtering,旨在通过利用字节对编码(BPE)分词器的内在行为来缓解这些攻击。我们的方法基于这样的原则:在自然语言上训练的分词器,会使用明显更多的短token来表示分布外的文本,例如密码。我们的技术利用了使用语言模型的一个简单而强大的特性:文本中每个Token的平均字符数(CPT)。这种方法的动机是现代方法的高计算成本——依赖于诸如专用LLM或困惑度模型等附加模块。我们在超过10万个提示词的大型数据集上验证了我们的方法,使用几种流行的分词器测试了许多编码方案。我们的实验表明,一个简单的CPT阈值可以稳健地识别编码文本,具有很高的准确性,即使对于非常短的输入也是如此。CPT-Filtering提供了一个实用的防御层,可以立即部署用于实时文本过滤和离线数据整理。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)容易受到恶意提示词攻击的问题。这些攻击通常使用密码或字符级编码来混淆提示词,绕过LLM的安全防护机制。现有的安全防护方法,例如基于LLM或困惑度模型的检测方法,计算成本高昂,难以实时部署。

核心思路:论文的核心思路是利用字节对编码(BPE)分词器的特性。BPE分词器在自然语言上训练,对于分布外的文本(如编码后的文本),会将其分解成更多的、更短的token。因此,编码文本的平均每个token的字符数(CPT)会显著低于自然语言文本。通过设定一个CPT阈值,可以有效区分编码文本和自然语言文本。

技术框架:CPT-Filtering的整体框架非常简单。首先,使用LLM的分词器对输入文本进行分词。然后,计算文本的平均每个token的字符数(CPT)。最后,将计算出的CPT与预设的阈值进行比较。如果CPT低于阈值,则认为该文本是编码后的恶意提示词,并进行过滤。

关键创新:该方法最重要的创新点在于其简单性和高效性。与依赖于额外LLM或复杂模型的现有方法不同,CPT-Filtering仅需要计算CPT,计算成本几乎可以忽略不计。此外,该方法是模型无关的,可以应用于任何使用BPE分词器的LLM。

关键设计:关键设计在于CPT阈值的选择。阈值的选择需要根据具体的LLM和分词器进行调整。论文通过实验确定了合适的阈值范围。此外,论文还考虑了短文本的情况,并提出了一些优化策略,以提高短文本的检测准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CPT-Filtering在超过10万个提示词的大型数据集上,能够以高精度识别编码文本。即使对于非常短的输入,该方法也能保持较高的准确率。与现有的基于LLM或困惑度模型的检测方法相比,CPT-Filtering的计算成本极低,可以忽略不计。

🎯 应用场景

CPT-Filtering可用于实时过滤恶意提示词,保护LLM免受越狱攻击。该方法还可用于离线数据清洗,去除训练数据中的噪声和恶意样本。由于其高效性和模型无关性,CPT-Filtering可以广泛应用于各种LLM应用场景,提高LLM的安全性和可靠性。

📄 摘要(原文)

Large Language Models (LLMs) are susceptible to jailbreak attacks where malicious prompts are disguised using ciphers and character-level encodings to bypass safety guardrails. While these guardrails often fail to interpret the encoded content, the underlying models can still process the harmful instructions. We introduce CPT-Filtering, a novel, model-agnostic with negligible-costs and near-perfect accuracy guardrail technique that aims to mitigate these attacks by leveraging the intrinsic behavior of Byte-Pair Encoding (BPE) tokenizers. Our method is based on the principle that tokenizers, trained on natural language, represent out-of-distribution text, such as ciphers, using a significantly higher number of shorter tokens. Our technique uses a simple yet powerful artifact of using language models: the average number of Characters Per Token (CPT) in the text. This approach is motivated by the high compute cost of modern methods - relying on added modules such as dedicated LLMs or perplexity models. We validate our approach across a large dataset of over 100,000 prompts, testing numerous encoding schemes with several popular tokenizers. Our experiments demonstrate that a simple CPT threshold robustly identifies encoded text with high accuracy, even for very short inputs. CPT-Filtering provides a practical defense layer that can be immediately deployed for real-time text filtering and offline data curation.