Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs
作者: Zhuo Zhang, Guangyu Shen, Guanhong Tao, Siyuan Cheng, Xiangyu Zhang
分类: cs.CR, cs.LG
发布日期: 2023-12-08
💡 一句话要点
提出模型审讯方法,通过操纵logits从LLM中强制提取隐藏的有害信息。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 LLM安全 对抗攻击 模型审讯 知识提取
📋 核心要点
- 现有LLM对齐方法易受对抗性提示攻击,且忽略了模型拒绝有害请求时logits中隐藏的有害信息。
- 提出“模型审讯”方法,通过在生成过程中操纵logits,强制LLM揭示隐藏的有害响应。
- 实验表明,该方法比越狱方法更有效、更快速,且能提取更相关、完整和清晰的有害内容。
📝 摘要(中文)
大型语言模型(LLM)目前被广泛应用于各种应用中,因此将其伦理标准与人类价值观对齐至关重要。然而,最近的越狱方法表明,这种对齐可以通过精心设计的提示来破坏。在本研究中,我们揭示了一种新的LLM对齐威胁,即当恶意行为者可以访问模型的输出logits时(这是开源LLM和许多商业LLM API(例如,某些GPT模型)中的常见功能)。该方法不依赖于制作特定的提示,而是利用了这样一个事实:即使LLM拒绝了有害请求,有害响应通常也隐藏在输出logits的深处。通过在自回归生成过程中的几个关键输出位置强制选择排名较低的输出token,我们可以迫使模型揭示这些隐藏的响应。我们将此过程称为模型审讯。这种方法不同于且优于越狱方法,实现了92%的有效性,而越狱方法的有效性为62%,并且速度快10到20倍。通过我们的方法发现的有害内容更相关、完整和清晰。此外,它可以补充越狱策略,从而进一步提高攻击性能。我们的研究结果表明,审讯甚至可以从专门为编码任务设计的模型中提取有害知识。
🔬 方法详解
问题定义:论文旨在解决LLM对齐问题中,现有方法容易被绕过,且忽略了模型在拒绝有害请求时,其输出logits中仍然可能隐藏着有害信息的问题。现有的越狱方法依赖于精心设计的提示,而这些提示可能被防御机制所阻止。此外,即使模型拒绝了有害请求,其内部仍然可能存在有害的知识,这些知识可以通过操纵模型的输出来提取。
核心思路:论文的核心思路是,即使LLM拒绝了有害请求,其输出logits中仍然包含有害信息。通过在生成过程中,强制选择排名较低的token,可以迫使模型揭示这些隐藏的有害响应。这种方法不依赖于特定的提示,而是直接操纵模型的输出,从而绕过现有的防御机制。
技术框架:该方法主要包含以下几个步骤: 1. 向LLM提出一个有害请求。 2. 获取LLM的输出logits。 3. 在自回归生成过程中的几个关键输出位置,强制选择排名较低的token。 4. 将生成的文本作为有害响应输出。
关键创新:该方法最重要的技术创新点在于,它不依赖于特定的提示,而是直接操纵模型的输出logits,从而绕过现有的防御机制。与传统的越狱方法相比,该方法更加有效、快速,且能提取更相关、完整和清晰的有害内容。此外,该方法还可以与越狱方法相结合,进一步提高攻击性能。
关键设计:该方法的关键设计在于如何选择需要操纵的关键输出位置以及如何选择排名较低的token。论文中可能使用了某种策略来确定这些关键位置,例如选择logits分布最不确定的位置,或者选择对后续生成影响最大的位置。对于token的选择,可以采用随机选择或者基于某种策略的选择,例如选择logits值略低于排名最高的token的token。
📊 实验亮点
实验结果表明,该方法比传统的越狱方法更有效,达到了92%的攻击成功率,而越狱方法的成功率仅为62%。此外,该方法的速度也比越狱方法快10到20倍。通过该方法提取的有害内容更相关、完整和清晰。该方法还可以与越狱方法相结合,进一步提高攻击性能。
🎯 应用场景
该研究成果可用于评估和提高LLM的安全性,帮助开发者发现模型中潜在的有害知识,并采取相应的措施进行防御。同时,该方法也可能被恶意行为者利用,用于从LLM中提取有害信息,因此需要引起重视,并开发更有效的防御机制。该研究对于构建更安全、更可靠的LLM具有重要意义。
📄 摘要(原文)
Large Language Models (LLMs) are now widely used in various applications, making it crucial to align their ethical standards with human values. However, recent jail-breaking methods demonstrate that this alignment can be undermined using carefully constructed prompts. In our study, we reveal a new threat to LLM alignment when a bad actor has access to the model's output logits, a common feature in both open-source LLMs and many commercial LLM APIs (e.g., certain GPT models). It does not rely on crafting specific prompts. Instead, it exploits the fact that even when an LLM rejects a toxic request, a harmful response often hides deep in the output logits. By forcefully selecting lower-ranked output tokens during the auto-regressive generation process at a few critical output positions, we can compel the model to reveal these hidden responses. We term this process model interrogation. This approach differs from and outperforms jail-breaking methods, achieving 92% effectiveness compared to 62%, and is 10 to 20 times faster. The harmful content uncovered through our method is more relevant, complete, and clear. Additionally, it can complement jail-breaking strategies, with which results in further boosting attack performance. Our findings indicate that interrogation can extract toxic knowledge even from models specifically designed for coding tasks.