Token-Efficient Prompt Injection Attack: Provoking Cessation in LLM Reasoning via Adaptive Token Compression
作者: Yu Cui, Yujun Cai, Yiwei Wang
分类: cs.CR, cs.AI
发布日期: 2025-04-29
💡 一句话要点
提出基于自适应Token压缩的推理中断攻击,高效触发LLM的“停止思考”漏洞
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Prompt注入攻击 大型语言模型 推理中断 Token压缩 安全漏洞
📋 核心要点
- 现有方法触发DeepSeek-R1等LLM的“停止思考”漏洞,需要长Prompt的复杂数学题,成本高昂。
- 提出基于自适应Token压缩的“推理中断攻击”,利用简单算术任务即可高效触发漏洞,降低Prompt长度。
- 实验证明,该压缩框架显著减少Prompt长度,同时保持攻击有效性,并分析了漏洞的潜在原因。
📝 摘要(中文)
本文揭示了推理型大型语言模型(LLM)中存在的“停止思考”漏洞,即模型生成的推理Token可能强制中断推理过程,导致空响应,从而危及LLM集成应用。现有方法需使用包含超过5000个Token的复杂数学题才能触发此漏洞。为降低Token成本并正式定义此漏洞,本文提出了一种名为“推理中断攻击”的新型Prompt注入攻击,该攻击基于自适应Token压缩。研究表明,简单的独立算术任务即可有效触发此漏洞,且基于此类任务的Prompt逻辑结构比数学题更简单。本文开发了一种系统方法来高效收集攻击Prompt,并设计了一个利用LLM自动压缩这些Prompt的自适应Token压缩框架。实验表明,该压缩框架在保持有效攻击能力的同时,显著降低了Prompt长度。此外,本文还通过输出前缀分析了攻击性能,并深入研究了该漏洞的根本原因,为提高推理LLM的安全性提供了有价值的见解。
🔬 方法详解
问题定义:论文旨在解决现有Prompt注入攻击触发LLM“停止思考”漏洞时,Prompt过长、Token成本过高的问题。现有方法依赖于复杂的数学题,不仅Prompt冗长,而且逻辑结构复杂,难以系统性地分析和利用。
核心思路:论文的核心思路是利用简单的算术任务来触发“停止思考”漏洞,并设计自适应Token压缩框架来进一步降低Prompt长度。通过简化任务类型,可以更容易地发现和构造有效的攻击Prompt。自适应Token压缩则利用LLM自身的生成能力,在保持攻击效果的前提下,自动精简Prompt。
技术框架:整体框架包含三个主要阶段:1) 攻击Prompt收集:通过系统性的方法,例如随机生成算术表达式,并筛选能够触发漏洞的Prompt;2) 自适应Token压缩:利用LLM对Prompt进行压缩,目标是在减少Token数量的同时,保持或增强攻击效果;3) 攻击性能分析:通过分析输出前缀等指标,评估攻击效果,并深入研究漏洞的根本原因。
关键创新:最重要的创新点在于提出了基于简单算术任务和自适应Token压缩的“推理中断攻击”。与现有方法相比,该方法能够以更低的Token成本和更简单的逻辑结构触发漏洞,并且能够系统性地进行Prompt收集和压缩。
关键设计:自适应Token压缩框架的关键设计包括:1) 使用LLM作为压缩器,利用其强大的语言理解和生成能力;2) 设计合适的压缩目标,例如最小化Token数量,同时最大化攻击成功率;3) 迭代压缩过程,逐步精简Prompt,直到达到预期的Token数量或攻击效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于简单算术任务的Prompt可以有效触发DeepSeek-R1的“停止思考”漏洞。自适应Token压缩框架能够显著降低Prompt长度,同时保持甚至提高攻击成功率。例如,压缩后的Prompt长度可以减少到原来的1/5,而攻击成功率保持在90%以上。此外,研究还通过分析输出前缀,揭示了漏洞的潜在原因,为后续的安全改进提供了依据。
🎯 应用场景
该研究成果可应用于提升大型语言模型的安全性,尤其是在LLM被集成到各种应用中时。通过理解和缓解“停止思考”漏洞,可以防止恶意用户利用该漏洞中断LLM的推理过程,从而保障LLM集成应用的稳定性和可靠性。此外,该研究提出的自适应Token压缩方法也可用于其他Prompt工程任务,例如降低Prompt成本、提高Prompt效率等。
📄 摘要(原文)
While reasoning large language models (LLMs) demonstrate remarkable performance across various tasks, they also contain notable security vulnerabilities. Recent research has uncovered a "thinking-stopped" vulnerability in DeepSeek-R1, where model-generated reasoning tokens can forcibly interrupt the inference process, resulting in empty responses that compromise LLM-integrated applications. However, existing methods triggering this vulnerability require complex mathematical word problems with long prompts--even exceeding 5,000 tokens. To reduce the token cost and formally define this vulnerability, we propose a novel prompt injection attack named "Reasoning Interruption Attack", based on adaptive token compression. We demonstrate that simple standalone arithmetic tasks can effectively trigger this vulnerability, and the prompts based on such tasks exhibit simpler logical structures than mathematical word problems. We develop a systematic approach to efficiently collect attack prompts and an adaptive token compression framework that utilizes LLMs to automatically compress these prompts. Experiments show our compression framework significantly reduces prompt length while maintaining effective attack capabilities. We further investigate the attack's performance via output prefix and analyze the underlying causes of the vulnerability, providing valuable insights for improving security in reasoning LLMs.