Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search
作者: Xun Huang, Simeng Qin, Xiaoshuang Jia, Ranjie Duan, Huanqian Yan, Zhitao Zeng, Fei Yang, Yang Liu, Xiaojun Jia
分类: cs.AI, cs.CR
发布日期: 2026-02-26
期刊: ICLR 2026 Poster
💡 一句话要点
提出CC-BOS框架,利用文言文和果蝇优化算法实现大语言模型的黑盒越狱攻击。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 越狱攻击 文言文 对抗性提示 果蝇优化算法
📋 核心要点
- 现有大语言模型存在安全漏洞,容易受到越狱攻击,且不同语言环境下的攻击效果存在差异。
- 提出CC-BOS框架,利用文言文的隐晦性,结合多维果蝇优化算法,自动生成对抗性提示。
- 实验结果表明,CC-BOS框架在黑盒攻击场景下,性能优于当前最先进的越狱攻击方法。
📝 摘要(中文)
随着大型语言模型(LLMs)的日益普及,其安全风险日益受到关注。现有研究表明,LLMs极易受到越狱攻击,且攻击效果因语言环境而异。本文研究了文言文在越狱攻击中的作用。由于其简洁性和隐晦性,文言文可以部分绕过现有的安全约束,暴露LLMs的显著漏洞。基于此,本文提出了一个名为CC-BOS的框架,用于自动生成基于多维果蝇优化的文言文对抗性提示,从而在黑盒设置中实现高效且自动化的越狱攻击。提示被编码为八个策略维度——涵盖角色、行为、机制、隐喻、表达、知识、触发模式和上下文;并通过气味搜索、视觉搜索和柯西变异进行迭代优化。这种设计能够有效探索搜索空间,从而提高黑盒越狱攻击的有效性。为了提高可读性和评估准确性,我们进一步设计了一个文言文到英语的翻译模块。大量实验表明,所提出的CC-BOS的有效性始终优于最先进的越狱攻击方法。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)的越狱攻击问题,特别是利用文言文的特性绕过安全防护机制。现有方法在处理文言文这种具有特殊性和隐蔽性的语言时,效果不佳,容易被LLMs的安全策略所防御。因此,如何有效地利用文言文生成对抗性提示,从而实现对LLMs的黑盒越狱攻击,是本文要解决的核心问题。
核心思路:论文的核心思路是利用文言文的简洁性和隐晦性,结合生物启发式算法(果蝇优化算法),自动生成能够绕过LLMs安全策略的对抗性提示。通过将提示信息编码为多个维度,并利用果蝇优化算法进行迭代搜索和优化,从而在黑盒环境中高效地找到有效的越狱提示。这种方法能够充分利用文言文的特性,同时避免了手动设计提示的繁琐和低效。
技术框架:CC-BOS框架主要包含以下几个模块:1) 提示编码模块:将提示信息编码为八个维度,包括角色、行为、机制、隐喻、表达、知识、触发模式和上下文。2) 果蝇优化模块:利用果蝇优化算法,在编码后的提示空间中进行搜索和优化,寻找能够有效攻击LLMs的提示。该模块包含气味搜索、视觉搜索和柯西变异等步骤。3) 文言文到英文翻译模块:为了方便评估和理解生成的文言文提示,设计了一个文言文到英文的翻译模块。4) 评估模块:评估生成的提示对LLMs的攻击效果。
关键创新:论文的关键创新在于:1) 首次探索了文言文在LLMs越狱攻击中的应用,发现了文言文的隐蔽性可以有效绕过安全策略。2) 提出了基于多维果蝇优化算法的提示生成方法,能够自动生成有效的文言文对抗性提示。3) 设计了文言文到英文的翻译模块,提高了可读性和评估准确性。
关键设计:在果蝇优化算法中,采用了气味搜索、视觉搜索和柯西变异等策略,以提高搜索效率和避免陷入局部最优解。具体来说,气味搜索模拟果蝇通过气味寻找食物的过程,视觉搜索模拟果蝇通过视觉确认食物位置的过程,柯西变异则用于增加搜索的多样性。此外,八个提示维度(角色、行为、机制、隐喻、表达、知识、触发模式和上下文)的选择也经过精心设计,以覆盖提示信息的各个方面。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CC-BOS框架在黑盒攻击场景下,能够显著提高越狱攻击的成功率,优于当前最先进的攻击方法。具体而言,CC-BOS在多个LLMs上实现了更高的攻击成功率,并且生成的对抗性提示具有更好的可读性和隐蔽性。这些结果验证了文言文在越狱攻击中的有效性,以及CC-BOS框架的优越性。
🎯 应用场景
该研究成果可应用于评估和提升大型语言模型的安全性,帮助开发者发现和修复潜在的安全漏洞。此外,该方法也可用于生成对抗性样本,用于训练更加鲁棒的语言模型。研究结果对于理解和防范针对LLMs的恶意攻击具有重要意义,有助于构建更加安全可靠的人工智能系统。
📄 摘要(原文)
As Large Language Models (LLMs) are increasingly used, their security risks have drawn increasing attention. Existing research reveals that LLMs are highly susceptible to jailbreak attacks, with effectiveness varying across language contexts. This paper investigates the role of classical Chinese in jailbreak attacks. Owing to its conciseness and obscurity, classical Chinese can partially bypass existing safety constraints, exposing notable vulnerabilities in LLMs. Based on this observation, this paper proposes a framework, CC-BOS, for the automatic generation of classical Chinese adversarial prompts based on multi-dimensional fruit fly optimization, facilitating efficient and automated jailbreak attacks in black-box settings. Prompts are encoded into eight policy dimensions-covering role, behavior, mechanism, metaphor, expression, knowledge, trigger pattern and context; and iteratively refined via smell search, visual search, and cauchy mutation. This design enables efficient exploration of the search space, thereby enhancing the effectiveness of black-box jailbreak attacks. To enhance readability and evaluation accuracy, we further design a classical Chinese to English translation module. Extensive experiments demonstrate that effectiveness of the proposed CC-BOS, consistently outperforming state-of-the-art jailbreak attack methods.