Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search
作者: Xun Huang, Simeng Qin, Xiaoshuang Jia, Ranjie Duan, Huanqian Yan, Zhitao Zeng, Fei Yang, Yang Liu, Xiaojun Jia
分类: cs.AI, cs.CR
发布日期: 2026-02-28
💡 一句话要点
提出CC-BOS框架,利用文言文和果蝇优化算法实现大语言模型的黑盒越狱攻击。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 越狱攻击 文言文 对抗性提示 果蝇优化算法
📋 核心要点
- 现有大语言模型存在安全漏洞,容易受到越狱攻击,且不同语言环境下的攻击效果存在差异。
- 提出CC-BOS框架,利用文言文的隐晦性,结合多维果蝇优化算法,自动生成对抗性提示。
- 实验结果表明,CC-BOS框架在黑盒越狱攻击中优于现有最先进的方法,提升了攻击的有效性。
📝 摘要(中文)
随着大型语言模型(LLMs)的日益普及,其安全风险日益受到关注。现有研究表明,LLMs极易受到越狱攻击,且攻击效果因语言环境而异。本文研究了文言文在越狱攻击中的作用。由于其简洁性和隐晦性,文言文可以部分绕过现有的安全约束,暴露LLMs的显著漏洞。基于此,本文提出了一个名为CC-BOS的框架,用于自动生成基于多维果蝇优化的文言文对抗性提示,从而在黑盒设置中实现高效且自动化的越狱攻击。提示被编码为八个策略维度——涵盖角色、行为、机制、隐喻、表达、知识、触发模式和上下文;并通过气味搜索、视觉搜索和柯西变异进行迭代优化。这种设计能够有效探索搜索空间,从而提高黑盒越狱攻击的有效性。为了提高可读性和评估准确性,我们进一步设计了一个文言文到英语的翻译模块。大量实验表明,所提出的CC-BOS的有效性始终优于最先进的越狱攻击方法。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在面对对抗性攻击时存在的脆弱性问题。现有的越狱攻击方法在面对安全约束较强的LLMs时效果不佳,并且缺乏针对特定语言(如文言文)的有效攻击手段。文言文的简洁性和隐晦性为绕过安全约束提供了可能,但如何自动生成有效的文言文对抗性提示是一个挑战。
核心思路:论文的核心思路是利用文言文的特性,设计一种能够自动生成对抗性提示的框架,从而实现对LLMs的黑盒越狱攻击。该框架借鉴了生物启发式算法——果蝇优化算法(Fruit Fly Optimization Algorithm, FOA),通过模拟果蝇的觅食行为,在提示空间中搜索最优的对抗性提示。之所以选择FOA,是因为其具有全局搜索能力强、参数少、易于实现的优点。
技术框架:CC-BOS框架主要包含以下几个模块:1) 提示编码模块:将提示编码为八个策略维度,包括角色、行为、机制、隐喻、表达、知识、触发模式和上下文。2) 果蝇优化模块:利用FOA算法迭代优化提示,包括气味搜索、视觉搜索和柯西变异等步骤。3) 文言文到英语翻译模块:将生成的文言文提示翻译成英文,以便于评估和理解。4) 评估模块:评估生成的提示的越狱攻击效果。
关键创新:该论文的关键创新在于:1) 首次探索了文言文在越狱攻击中的应用,利用其隐晦性绕过安全约束。2) 提出了基于多维果蝇优化的提示生成方法,能够高效地搜索对抗性提示空间。3) 设计了文言文到英语的翻译模块,提高了可读性和评估准确性。
关键设计:在提示编码方面,论文将提示分解为八个维度,每个维度对应不同的策略。在果蝇优化方面,论文采用了气味搜索、视觉搜索和柯西变异等策略,以提高搜索效率和全局搜索能力。气味搜索模拟果蝇对气味的敏感性,用于快速定位潜在的有效提示。视觉搜索模拟果蝇的视觉能力,用于在气味搜索的基础上进行更精细的搜索。柯西变异用于增加种群的多样性,避免陷入局部最优。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CC-BOS框架在黑盒越狱攻击中始终优于最先进的方法。具体来说,CC-BOS在多个LLMs上实现了显著的越狱成功率提升,平均提升幅度超过10%。此外,CC-BOS生成的对抗性提示具有较高的隐蔽性,难以被现有的安全检测机制识别。
🎯 应用场景
该研究成果可应用于评估和提高大型语言模型的安全性,帮助开发者发现和修复潜在的安全漏洞。此外,该方法也可以用于生成对抗性样本,用于训练更加鲁棒的语言模型。未来,该研究可以扩展到其他语言和模型,进一步提升语言模型的安全性。
📄 摘要(原文)
As Large Language Models (LLMs) are increasingly used, their security risks have drawn increasing attention. Existing research reveals that LLMs are highly susceptible to jailbreak attacks, with effectiveness varying across language contexts. This paper investigates the role of classical Chinese in jailbreak attacks. Owing to its conciseness and obscurity, classical Chinese can partially bypass existing safety constraints, exposing notable vulnerabilities in LLMs. Based on this observation, this paper proposes a framework, CC-BOS, for the automatic generation of classical Chinese adversarial prompts based on multi-dimensional fruit fly optimization, facilitating efficient and automated jailbreak attacks in black-box settings. Prompts are encoded into eight policy dimensions-covering role, behavior, mechanism, metaphor, expression, knowledge, trigger pattern and context; and iteratively refined via smell search, visual search, and cauchy mutation. This design enables efficient exploration of the search space, thereby enhancing the effectiveness of black-box jailbreak attacks. To enhance readability and evaluation accuracy, we further design a classical Chinese to English translation module. Extensive experiments demonstrate that effectiveness of the proposed CC-BOS, consistently outperforming state-of-the-art jailbreak attack methods.