The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models
作者: Zihui Wu, Haichang Gao, Jianping He, Ping Wang
分类: cs.CR, cs.AI
发布日期: 2024-07-25 (更新: 2024-12-24)
🔗 代码/项目: GITHUB
💡 一句话要点
揭示LLM函数调用安全漏洞:提出“越狱函数”攻击方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 函数调用 安全漏洞 越狱攻击 人工智能安全
📋 核心要点
- 现有研究主要关注LLM聊天模式的安全,忽略了函数调用功能的安全风险,存在潜在漏洞。
- 提出“越狱函数”攻击方法,利用对齐差异、用户胁迫和安全过滤器的缺失来攻击LLM的函数调用功能。
- 实验表明,该攻击在多个先进LLM上成功率超过90%,并提出了防御性提示等防御策略。
📝 摘要(中文)
大型语言模型(LLMs)展现了卓越的能力,但其强大功能也带来了重大的安全问题。虽然在聊天模式下LLMs的安全性已得到广泛研究,但其函数调用功能的安全性在很大程度上被忽视了。本文揭示了LLMs函数调用过程中的一个关键漏洞,提出了一种新颖的“越狱函数”攻击方法,该方法利用了对齐差异、用户胁迫以及缺乏严格的安全过滤器。我们的实证研究在包括GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-pro在内的六个最先进的LLMs上进行,揭示了这种攻击令人震惊的平均成功率,超过90%。我们全面分析了函数调用易受此类攻击的原因,并提出了防御策略,包括使用防御性提示。我们的发现强调了LLMs函数调用功能中加强安全措施的迫切需要,通过识别先前未探索的风险、设计有效的攻击方法和提出实用的防御措施,为人工智能安全领域做出了贡献。我们的代码可在https://github.com/wooozihui/jailbreakfunction获取。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)函数调用功能中存在的安全漏洞问题。现有方法主要关注LLMs在聊天模式下的安全性,而忽略了函数调用功能的安全风险。这种忽视导致LLMs容易受到恶意攻击,例如通过精心设计的函数调用来绕过安全限制,执行不安全的操作。现有防御机制无法有效阻止此类攻击。
核心思路:论文的核心思路是利用LLMs在对齐、用户交互和安全过滤方面的弱点,通过构造特定的“越狱函数”来诱导LLMs执行不安全或有害的操作。这种方法的核心在于利用LLMs对函数调用参数的信任,以及在处理用户输入时可能存在的安全漏洞。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 漏洞分析:分析LLMs函数调用功能的潜在安全漏洞,例如对齐差异、用户胁迫和安全过滤器的缺失。2) 攻击设计:设计“越狱函数”攻击方法,通过构造特定的函数调用请求来利用这些漏洞。3) 实验评估:在多个先进LLMs上进行实验评估,测试攻击的成功率和效果。4) 防御策略:提出防御性提示等防御策略,以提高LLMs函数调用功能的安全性。
关键创新:该论文最重要的技术创新点在于提出了“越狱函数”攻击方法,这是一种新颖的攻击LLMs函数调用功能的手段。与传统的攻击方法不同,该方法专注于利用函数调用过程中的安全漏洞,例如对齐差异和用户胁迫,从而绕过LLMs的安全限制。这种方法能够有效地攻击多个先进LLMs,表明了其具有广泛的适用性和威胁性。
关键设计:在攻击设计方面,关键在于构造能够诱导LLMs执行不安全操作的函数调用请求。这需要深入了解LLMs的函数调用机制和安全过滤策略,并精心设计函数调用参数,以绕过安全限制。在防御策略方面,关键在于设计能够有效识别和阻止“越狱函数”攻击的防御性提示。这些提示需要能够引导LLMs正确理解用户意图,并避免执行不安全的操作。具体的参数设置、损失函数、网络结构等技术细节未知,因为论文重点在于攻击方法和防御策略,而非模型本身的修改。
🖼️ 关键图片
📊 实验亮点
实验结果表明,“越狱函数”攻击方法在包括GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-pro在内的六个最先进的LLMs上取得了超过90%的平均成功率。这一结果突显了LLMs函数调用功能中存在的严重安全漏洞,并强调了加强安全措施的迫切需要。此外,论文提出的防御性提示等防御策略也为提高LLMs的安全性提供了有价值的参考。
🎯 应用场景
该研究成果可应用于提升大型语言模型(LLMs)的安全性,尤其是在涉及函数调用的场景中。例如,在智能助手、自动化工具和API集成等应用中,可以利用该研究提出的防御策略来防止恶意攻击,确保LLMs的安全可靠运行。该研究有助于推动人工智能安全领域的发展,提高LLMs在实际应用中的可信度。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable capabilities, but their power comes with significant security considerations. While extensive research has been conducted on the safety of LLMs in chat mode, the security implications of their function calling feature have been largely overlooked. This paper uncovers a critical vulnerability in the function calling process of LLMs, introducing a novel "jailbreak function" attack method that exploits alignment discrepancies, user coercion, and the absence of rigorous safety filters. Our empirical study, conducted on six state-of-the-art LLMs including GPT-4o, Claude-3.5-Sonnet, and Gemini-1.5-pro, reveals an alarming average success rate of over 90\% for this attack. We provide a comprehensive analysis of why function calls are susceptible to such attacks and propose defensive strategies, including the use of defensive prompts. Our findings highlight the urgent need for enhanced security measures in the function calling capabilities of LLMs, contributing to the field of AI safety by identifying a previously unexplored risk, designing an effective attack method, and suggesting practical defensive measures. Our code is available at https://github.com/wooozihui/jailbreakfunction.