Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search
作者: Xun Huang, Simeng Qin, Xiaoshuang Jia, Ranjie Duan, Huanqian Yan, Zhitao Zeng, Fei Yang, Yang Liu, Xiaojun Jia
分类: cs.AI, cs.CR
发布日期: 2026-02-26 (更新: 2026-02-27)
备注: ICLR 2026 Poster
💡 一句话要点
提出CC-BOS框架,利用文言文和果蝇优化算法实现大语言模型的黑盒越狱攻击。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 越狱攻击 文言文 对抗性提示 果蝇优化算法
📋 核心要点
- 现有大语言模型存在安全漏洞,容易受到越狱攻击,且攻击效果受语言环境影响。
- 提出CC-BOS框架,利用文言文的隐晦性,结合多维果蝇优化算法自动生成对抗性提示。
- 实验结果表明,CC-BOS在黑盒越狱攻击中优于现有方法,提升了攻击的有效性。
📝 摘要(中文)
随着大型语言模型(LLMs)的日益普及,其安全风险日益受到关注。现有研究表明,LLMs极易受到越狱攻击,且攻击效果因语言环境而异。本文研究了文言文在越狱攻击中的作用。由于其简洁性和隐晦性,文言文可以部分绕过现有的安全约束,暴露LLMs的显著漏洞。基于此,本文提出了一个名为CC-BOS的框架,用于自动生成基于多维果蝇优化的文言文对抗性提示,从而在黑盒设置中实现高效且自动化的越狱攻击。提示被编码为八个策略维度——涵盖角色、行为、机制、隐喻、表达、知识、触发模式和上下文;并通过气味搜索、视觉搜索和柯西变异进行迭代优化。这种设计能够有效探索搜索空间,从而提高黑盒越狱攻击的有效性。为了提高可读性和评估准确性,我们进一步设计了一个文言文到英语的翻译模块。大量实验表明,所提出的CC-BOS的有效性始终优于最先进的越狱攻击方法。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在面对越狱攻击时存在的安全漏洞问题。现有的越狱攻击方法在面对安全约束时效果不佳,尤其是在特定语言环境下。文言文的简洁性和隐晦性为绕过这些安全约束提供了可能,但如何自动生成有效的文言文对抗性提示是一个挑战。
核心思路:论文的核心思路是利用文言文的特性,结合生物启发式算法(果蝇优化算法)来自动生成对抗性提示。通过将提示编码为多个维度,并利用果蝇优化算法在这些维度上进行搜索和优化,从而找到能够有效绕过LLMs安全机制的提示。这种方法旨在提高黑盒越狱攻击的效率和成功率。
技术框架:CC-BOS框架主要包含以下几个模块:1) 提示编码模块:将提示信息编码为八个维度,包括角色、行为、机制、隐喻、表达、知识、触发模式和上下文。2) 果蝇优化模块:利用果蝇优化算法在编码后的提示空间中进行搜索和优化,包括气味搜索、视觉搜索和柯西变异等步骤。3) 翻译模块:将生成的文言文提示翻译成英文,以便于理解和评估。4) 评估模块:评估生成的提示的越狱攻击效果。
关键创新:该论文的关键创新在于将文言文的特性与生物启发式算法相结合,用于自动生成对抗性提示。与传统的基于梯度或规则的对抗性攻击方法不同,CC-BOS采用了一种基于搜索的黑盒攻击方法,无需了解LLMs的内部结构和参数。此外,多维度的提示编码方式和果蝇优化算法的应用,使得CC-BOS能够更有效地探索提示空间,找到更有效的对抗性提示。
关键设计:在果蝇优化算法中,气味搜索模拟果蝇对气味的敏感性,用于初步探索提示空间;视觉搜索模拟果蝇的视觉能力,用于在气味搜索的基础上进行更精细的搜索;柯西变异用于增加搜索的多样性,避免陷入局部最优。八个提示维度(角色、行为、机制、隐喻、表达、知识、触发模式和上下文)的设计旨在覆盖提示的各个方面,从而提高攻击的成功率。文言文到英文的翻译模块采用了一种基于规则和统计的混合方法,以提高翻译的准确性和可读性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CC-BOS在黑盒越狱攻击中始终优于最先进的方法。具体而言,CC-BOS在多个LLMs上实现了更高的攻击成功率,并且生成的对抗性提示更难以被检测和防御。这些结果验证了CC-BOS的有效性和优越性。
🎯 应用场景
该研究成果可应用于评估和提高大型语言模型的安全性。通过自动生成对抗性提示,可以发现LLMs潜在的安全漏洞,并为开发更强大的防御机制提供指导。此外,该方法还可以用于测试LLMs在处理不同语言和文化背景下的鲁棒性,促进LLMs的公平性和可信度。
📄 摘要(原文)
As Large Language Models (LLMs) are increasingly used, their security risks have drawn increasing attention. Existing research reveals that LLMs are highly susceptible to jailbreak attacks, with effectiveness varying across language contexts. This paper investigates the role of classical Chinese in jailbreak attacks. Owing to its conciseness and obscurity, classical Chinese can partially bypass existing safety constraints, exposing notable vulnerabilities in LLMs. Based on this observation, this paper proposes a framework, CC-BOS, for the automatic generation of classical Chinese adversarial prompts based on multi-dimensional fruit fly optimization, facilitating efficient and automated jailbreak attacks in black-box settings. Prompts are encoded into eight policy dimensions-covering role, behavior, mechanism, metaphor, expression, knowledge, trigger pattern and context; and iteratively refined via smell search, visual search, and cauchy mutation. This design enables efficient exploration of the search space, thereby enhancing the effectiveness of black-box jailbreak attacks. To enhance readability and evaluation accuracy, we further design a classical Chinese to English translation module. Extensive experiments demonstrate that effectiveness of the proposed CC-BOS, consistently outperforming state-of-the-art jailbreak attack methods.