QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language

📄 arXiv: 2502.09723v3 📥 PDF

作者: Qingsong Zou, Jingyu Xiao, Qing Li, Zhi Yan, Yuhang Wang, Li Xu, Wenxuan Wang, Kuofeng Gao, Ruoyu Li, Yong Jiang

分类: cs.CR, cs.AI, cs.CL

发布日期: 2025-02-13 (更新: 2025-05-26)

备注: To appear in ACL 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出QueryAttack以破解大型语言模型的安全防护

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全对齐 越狱攻击 结构化查询 网络安全 人工智能伦理

📋 核心要点

  1. 现有的安全对齐技术在防御大型语言模型的攻击时存在一定的脆弱性,容易被绕过。
  2. 本文提出QueryAttack,通过将恶意自然语言查询转换为结构化的非自然查询语言,来破解安全对齐机制。
  3. 实验结果显示,QueryAttack在主流LLMs上实现了高达64%的攻击成功率降低,验证了其有效性。

📝 摘要(中文)

近年来,大型语言模型(LLMs)在自然语言处理领域展现出显著潜力。然而,LLMs面临着重大的安全和伦理风险。尽管已有安全对齐等防御技术,但研究表明,通过精心设计的越狱攻击可以绕过这些防御。本文提出了QueryAttack,一个新颖的框架,用于检验安全对齐的普适性。我们将LLMs视为知识数据库,将恶意查询从自然语言转换为结构化的非自然查询语言,以绕过LLMs的安全对齐机制。大量实验结果表明,QueryAttack不仅能实现高攻击成功率(ASRs),还能够破解多种防御方法。此外,我们针对QueryAttack设计了一种防御方法,能够将GPT-4-1106的ASR降低多达64%。

🔬 方法详解

问题定义:本文旨在解决大型语言模型(LLMs)在安全对齐方面的脆弱性,现有的防御方法容易被精心设计的攻击绕过。

核心思路:QueryAttack的核心思路是将恶意查询从自然语言转换为结构化的非自然查询语言,以此绕过LLMs的安全对齐机制,从而实现对模型的越狱。

技术框架:QueryAttack的整体架构包括查询转换模块、攻击执行模块和结果评估模块。查询转换模块负责将自然语言查询转化为结构化查询,攻击执行模块则利用这些查询对LLMs进行攻击,最后通过结果评估模块分析攻击成功率。

关键创新:QueryAttack的主要创新在于其将恶意查询结构化,从而有效绕过现有的安全对齐机制,这一方法与传统的自然语言攻击方式有本质区别。

关键设计:在QueryAttack中,设计了特定的查询转换算法,确保恶意查询能够在保持有效性的同时,规避安全机制。此外,采用了针对不同LLMs的适配策略,以提高攻击的成功率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,QueryAttack在主流大型语言模型上实现了高攻击成功率,能够有效绕过多种防御方法。特别是在GPT-4-1106上,设计的防御方法成功将攻击成功率降低了64%,显示出其在安全性评估中的重要价值。

🎯 应用场景

该研究的潜在应用领域包括网络安全、人工智能伦理和大型语言模型的安全性评估。通过深入理解LLMs的脆弱性,能够为未来的安全防护措施提供重要参考,提升模型的安全性和可靠性。

📄 摘要(原文)

Recent advances in large language models (LLMs) have demonstrated remarkable potential in the field of natural language processing. Unfortunately, LLMs face significant security and ethical risks. Although techniques such as safety alignment are developed for defense, prior researches reveal the possibility of bypassing such defenses through well-designed jailbreak attacks. In this paper, we propose QueryAttack, a novel framework to examine the generalizability of safety alignment. By treating LLMs as knowledge databases, we translate malicious queries in natural language into structured non-natural query language to bypass the safety alignment mechanisms of LLMs. We conduct extensive experiments on mainstream LLMs, and the results show that QueryAttack not only can achieve high attack success rates (ASRs), but also can jailbreak various defense methods. Furthermore, we tailor a defense method against QueryAttack, which can reduce ASR by up to $64\%$ on GPT-4-1106. Our code is available at https://github.com/horizonsinzqs/QueryAttack.