Casting a SPELL: Sentence Pairing Exploration for LLM Limitation-breaking
作者: Yifan Huang, Xiaojun Jia, Wenbo Guo, Yuqiang Sun, Yihao Huang, Chong Wang, Yang Liu
分类: cs.CR, cs.AI, cs.SE
发布日期: 2025-12-24
备注: Accepted to FSE 2026
💡 一句话要点
SPELL:通过句子配对探索LLM恶意代码生成限制突破
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 恶意代码生成 安全对齐 越狱攻击 时分选择
📋 核心要点
- 现有研究对LLM在恶意代码生成方面的安全对齐关注不足,缺乏针对性的越狱测试框架。
- SPELL框架通过时分选择策略,智能组合句子构建越狱提示,平衡探索和利用,高效突破LLM的安全限制。
- 实验表明SPELL在多种代码模型上有效,成功生成恶意代码,并能绕过现有恶意代码检测系统。
📝 摘要(中文)
大型语言模型(LLM)通过AI辅助编码工具彻底改变了软件开发,使编程经验有限的开发人员能够创建复杂的应用程序。然而,这种可访问性也延伸到了恶意行为者,他们可能利用这些强大的工具来生成有害软件。现有的越狱研究主要集中于针对LLM的一般攻击场景,对恶意代码生成作为越狱目标的研究有限。为了解决这一差距,我们提出了SPELL,一个全面的测试框架,专门用于评估恶意代码生成中安全对齐的弱点。我们的框架采用了一种时分选择策略,通过智能地组合来自先前知识数据集的句子来系统地构建越狱提示,从而平衡了对新攻击模式的探索和对成功技术的利用。对三种高级代码模型(GPT-4.1、Claude-3.5和Qwen2.5-Coder)的广泛评估表明了SPELL的有效性,在八个恶意代码类别中分别实现了83.75%、19.38%和68.12%的攻击成功率。生成的提示成功地在Cursor等真实世界的AI开发工具中生成了恶意代码,并且最先进的检测系统确认输出为恶意的比率超过73%。这些发现揭示了当前LLM实现中的重大安全漏洞,并为改进代码生成应用中的AI安全对齐提供了宝贵的见解。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在恶意代码生成方面的安全漏洞问题。现有的越狱研究主要关注通用攻击,缺乏针对恶意代码生成场景的专门测试和评估,导致LLM容易被利用生成有害软件。
核心思路:论文的核心思路是通过构建一个专门的测试框架SPELL,系统性地探索和利用LLM在恶意代码生成方面的弱点。SPELL通过智能组合句子来生成越狱提示,从而绕过LLM的安全对齐机制,促使其生成恶意代码。这种方法旨在揭示LLM在安全方面的潜在风险,并为改进安全对齐提供指导。
技术框架:SPELL框架采用时分选择策略,包含以下主要阶段:1)构建先验知识数据集,包含各种与恶意代码生成相关的句子;2)使用时分选择算法,从数据集中选择句子组合成越狱提示;3)将提示输入到目标LLM,生成代码;4)使用恶意代码检测系统评估生成的代码是否为恶意代码。框架通过迭代优化提示生成策略,提高攻击成功率。
关键创新:SPELL的关键创新在于其时分选择策略,该策略平衡了对新攻击模式的探索和对成功技术的利用。传统的越狱方法通常依赖于人工设计的提示或随机搜索,效率较低。SPELL通过系统地组合句子,能够更有效地发现LLM的弱点,并生成更具欺骗性的提示。
关键设计:SPELL框架的关键设计包括:1)先验知识数据集的构建,需要收集各种与恶意代码生成相关的句子,例如漏洞利用、权限提升等;2)时分选择算法的设计,需要平衡探索和利用,避免陷入局部最优;3)恶意代码检测系统的选择,需要选择准确率高、覆盖面广的检测系统,以评估生成的代码是否为恶意代码。
🖼️ 关键图片
📊 实验亮点
SPELL框架在GPT-4.1、Claude-3.5和Qwen2.5-Coder三种先进代码模型上分别实现了83.75%、19.38%和68.12%的攻击成功率。生成的提示成功地在Cursor等真实世界的AI开发工具中生成了恶意代码,并且最先进的检测系统确认输出为恶意的比率超过73%。这些结果表明SPELL能够有效突破LLM的安全限制,揭示其在恶意代码生成方面的安全漏洞。
🎯 应用场景
该研究成果可应用于提升AI辅助代码生成工具的安全性,例如用于评估和改进LLM的安全对齐机制,防止恶意用户利用LLM生成有害软件。此外,该框架也可用于开发更强大的恶意代码检测系统,提高对AI生成恶意代码的识别能力,从而保障软件安全。
📄 摘要(原文)
Large language models (LLMs) have revolutionized software development through AI-assisted coding tools, enabling developers with limited programming expertise to create sophisticated applications. However, this accessibility extends to malicious actors who may exploit these powerful tools to generate harmful software. Existing jailbreaking research primarily focuses on general attack scenarios against LLMs, with limited exploration of malicious code generation as a jailbreak target. To address this gap, we propose SPELL, a comprehensive testing framework specifically designed to evaluate the weakness of security alignment in malicious code generation. Our framework employs a time-division selection strategy that systematically constructs jailbreaking prompts by intelligently combining sentences from a prior knowledge dataset, balancing exploration of novel attack patterns with exploitation of successful techniques. Extensive evaluation across three advanced code models (GPT-4.1, Claude-3.5, and Qwen2.5-Coder) demonstrates SPELL's effectiveness, achieving attack success rates of 83.75%, 19.38%, and 68.12% respectively across eight malicious code categories. The generated prompts successfully produce malicious code in real-world AI development tools such as Cursor, with outputs confirmed as malicious by state-of-the-art detection systems at rates exceeding 73%. These findings reveal significant security gaps in current LLM implementations and provide valuable insights for improving AI safety alignment in code generation applications.