Mind the Inconspicuous: Revealing the Hidden Weakness in Aligned LLMs' Refusal Boundaries
作者: Jiahao Yu, Haozheng Luo, Jerry Yao-Chieh Hu, Wenbo Guo, Han Liu, Xinyu Xing
分类: cs.AI
发布日期: 2024-05-31 (更新: 2025-06-17)
备注: published at USENIX Security 25
💡 一句话要点
揭示对齐LLM拒绝边界的隐蔽弱点:EOS token引发上下文分割
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 对齐 越狱攻击 EOS token 上下文分割
📋 核心要点
- 现有对齐的LLM在区分有害和无害查询方面仍存在漏洞,容易受到对抗性攻击。
- 通过附加多个EOS token,论文提出了一种名为上下文分割的新型攻击方法,使输入更接近拒绝边界。
- 实验证明,该方法显著提高了多种越狱攻击在多个LLM上的成功率,并揭示了商业API的潜在风险。
📝 摘要(中文)
大型语言模型(LLM)的最新进展在对齐方面取得了显著成果,模型通过监督微调(SFT)和基于人类反馈的强化学习(RLHF)学会区分有害查询和无害查询。本文揭示了这些对齐模型中一个微妙但影响深远的弱点。我们发现,简单地附加多个序列结束(eos)token会导致一种称为上下文分割的现象,有效地将有害和良性输入在隐藏空间中更靠近拒绝边界。基于这一观察,我们提出了一种通过附加eos token来增强越狱攻击的直接方法(BOOST)。我们的系统评估表明,这种策略显著提高了8种代表性越狱技术和16个开源LLM(参数范围从2B到72B)的攻击成功率。此外,我们开发了一种针对商业API的新型探测机制,发现OpenAI、Anthropic和Qwen等主要提供商并未过滤eos token,使其同样容易受到攻击。这些发现突出了现有对齐和内容过滤方法中一个隐藏但至关重要的盲点。我们呼吁高度关注eos token对模型行为的意外影响,尤其是在生产系统中。我们的工作不仅呼吁基于输入过滤的防御,而且还指出了使拒绝边界更稳健和更具泛化能力的新防御方法,以及可以防御上下文分割攻击的基础对齐技术。
🔬 方法详解
问题定义:现有对齐的LLM虽然在表面上能够区分有害和无害的输入,但其拒绝边界存在隐蔽的弱点。攻击者可以通过构造特定的输入,绕过模型的安全机制,执行有害操作。现有的越狱攻击方法通常需要复杂的prompt工程,而本文关注的是一种更简单、更通用的攻击方式。
核心思路:论文的核心思路是利用EOS token来操纵模型的上下文表示,使其产生“上下文分割”现象,从而将输入推向拒绝边界。通过在输入中添加多个EOS token,模型会将输入分割成多个片段,每个片段的语义信息减弱,从而更容易被模型误判为有害。
技术框架:该研究主要包含以下几个阶段:1) 观察到附加EOS token会导致上下文分割现象;2) 基于此现象,提出BOOST攻击方法,即在原始攻击prompt后添加多个EOS token;3) 在多个开源LLM和商业API上进行系统评估,验证BOOST攻击的有效性;4) 提出潜在的防御策略,包括输入过滤和更鲁棒的对齐技术。
关键创新:该论文的关键创新在于发现了EOS token对LLM拒绝边界的意外影响,并将其应用于越狱攻击。与传统的prompt工程方法不同,BOOST攻击不需要复杂的prompt设计,只需要简单地添加EOS token即可显著提高攻击成功率。此外,该研究还提出了一种针对商业API的探测机制,用于检测其对EOS token的处理方式。
关键设计:BOOST攻击的关键参数是EOS token的数量。实验中,作者尝试了不同数量的EOS token,并发现适当数量的EOS token可以最大化攻击成功率。此外,作者还研究了不同类型的LLM和不同的越狱攻击方法对BOOST攻击的敏感性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BOOST攻击能够显著提高多种越狱攻击在多个开源LLM上的成功率。例如,在某些模型上,攻击成功率提升了高达50%。此外,针对商业API的探测结果表明,包括OpenAI、Anthropic和Qwen在内的主要提供商都存在EOS token过滤漏洞,这表明该问题具有广泛的影响。
🎯 应用场景
该研究成果可应用于评估和提高LLM的安全性,特别是在部署到生产环境之前。通过识别和修复LLM拒绝边界的弱点,可以减少模型被恶意利用的风险。此外,该研究也为开发更鲁棒的对齐技术和内容过滤方法提供了新的思路。
📄 摘要(原文)
Recent advances in Large Language Models (LLMs) have led to impressive alignment where models learn to distinguish harmful from harmless queries through supervised finetuning (SFT) and reinforcement learning from human feedback (RLHF). In this paper, we reveal a subtle yet impactful weakness in these aligned models. We find that simply appending multiple end of sequence (eos) tokens can cause a phenomenon we call context segmentation, which effectively shifts both harmful and benign inputs closer to the refusal boundary in the hidden space. Building on this observation, we propose a straightforward method to BOOST jailbreak attacks by appending eos tokens. Our systematic evaluation shows that this strategy significantly increases the attack success rate across 8 representative jailbreak techniques and 16 open-source LLMs, ranging from 2B to 72B parameters. Moreover, we develop a novel probing mechanism for commercial APIs and discover that major providers such as OpenAI, Anthropic, and Qwen do not filter eos tokens, making them similarly vulnerable. These findings highlight a hidden yet critical blind spot in existing alignment and content filtering approaches. We call for heightened attention to eos tokens' unintended influence on model behaviors, particularly in production systems. Our work not only calls for an input-filtering based defense, but also points to new defenses that make refusal boundaries more robust and generalizable, as well as fundamental alignment techniques that can defend against context segmentation attacks.