Large Language Model Watermark Stealing With Mixed Integer Programming
作者: Zhaoxi Zhang, Xiaomei Zhang, Yanjun Zhang, Leo Yu Zhang, Chao Chen, Shengshan Hu, Asif Gill, Shirui Pan
分类: cs.CR, cs.AI
发布日期: 2024-05-30
备注: 12 pages
💡 一句话要点
提出基于混合整数规划的大语言模型水印窃取攻击,有效破解现有水印方案。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 水印攻击 绿名单窃取 混合整数规划 安全漏洞
📋 核心要点
- 现有LLM水印方案,尤其是在使用大量密钥时,容易受到token编辑、同义词替换和释义等攻击,鲁棒性不足。
- 论文提出一种新的绿名单窃取攻击,将攻击过程形式化为带有约束的混合整数规划问题,旨在破解现有水印方案。
- 实验表明,即使在攻击者缺乏先验知识和访问权限的极端情况下,该攻击也能成功窃取绿名单并移除水印。
📝 摘要(中文)
大语言模型(LLM)水印是一种新兴技术,有望解决LLM版权问题、监控AI生成文本并防止其滥用。LLM水印方案通常包括生成密钥将词汇表划分为绿名单和红名单,对绿名单中token的logits进行扰动以增加其采样可能性,从而通过检测绿色token的比例是否超过阈值来识别AI生成的文本。然而,最近的研究表明,使用大量密钥的水印方法容易受到移除攻击,例如token编辑、同义词替换和释义,并且随着密钥数量的增加,鲁棒性会下降。因此,采用较少或单个密钥的最先进的水印方案已被证明对文本编辑和释义更具鲁棒性。在本文中,我们提出了一种针对最先进LLM水印方案的新型绿名单窃取攻击,并系统地研究了其对该攻击的脆弱性。我们将攻击形式化为一个带有约束的混合整数规划问题。我们在一个全面的威胁模型下评估我们的攻击,包括攻击者没有先验知识、无法访问水印检测器API以及不了解LLM的参数设置或水印注入/检测方案的极端情况。对OPT和LLaMA等LLM的大量实验表明,我们的攻击可以成功窃取绿名单并在所有设置中移除水印。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLM)水印方案的安全性问题,特别是针对现有水印方案中绿名单容易被窃取的弱点。现有方法在设计水印时,往往忽略了攻击者可能通过优化手段来推断绿名单,从而导致水印失效。因此,如何有效地窃取绿名单,并评估现有水印方案的安全性,是本文要解决的核心问题。
核心思路:论文的核心思路是将绿名单的窃取问题建模成一个混合整数规划(Mixed Integer Programming, MIP)问题。通过优化目标函数,在满足一定约束条件的情况下,找到最有可能的绿名单。这种方法允许攻击者在没有先验知识的情况下,通过与LLM的交互,逐步推断出绿名单。
技术框架:该攻击框架主要包括以下几个步骤:1) 初始化:攻击者首先需要与目标LLM进行交互,生成一些文本样本。2) 建模:将绿名单窃取问题建模成一个MIP问题,其中目标函数旨在最大化生成文本中绿名单token的比例,约束条件则包括绿名单的大小等。3) 求解:使用MIP求解器来找到最优的绿名单。4) 验证:使用窃取到的绿名单来生成文本,并验证水印是否被成功移除。
关键创新:该论文的关键创新在于将绿名单窃取问题形式化为一个混合整数规划问题。这种方法允许攻击者在没有先验知识的情况下,通过优化手段来推断绿名单,从而有效地破解现有水印方案。与传统的攻击方法相比,该方法更加系统化和高效。
关键设计:在MIP模型中,关键的设计包括:1) 目标函数:目标函数旨在最大化生成文本中绿名单token的比例。2) 约束条件:约束条件包括绿名单的大小、token的频率等。3) 求解器:选择合适的MIP求解器对于找到最优解至关重要。论文中使用了常见的MIP求解器,并根据实际情况进行了参数调整。
📊 实验亮点
实验结果表明,即使在攻击者没有任何先验知识、无法访问水印检测API以及不了解LLM参数设置或水印注入/检测方案的极端情况下,该攻击也能成功窃取绿名单并在OPT和LLaMA等LLM上移除水印,证明了现有水印方案的脆弱性。
🎯 应用场景
该研究成果可应用于评估和改进现有LLM水印方案的安全性,帮助开发者设计更鲁棒的水印算法,从而更好地保护LLM的版权,防止AI生成文本的滥用。同时,该研究也提醒人们关注LLM安全问题,促进更安全、可信的AI技术发展。
📄 摘要(原文)
The Large Language Model (LLM) watermark is a newly emerging technique that shows promise in addressing concerns surrounding LLM copyright, monitoring AI-generated text, and preventing its misuse. The LLM watermark scheme commonly includes generating secret keys to partition the vocabulary into green and red lists, applying a perturbation to the logits of tokens in the green list to increase their sampling likelihood, thus facilitating watermark detection to identify AI-generated text if the proportion of green tokens exceeds a threshold. However, recent research indicates that watermarking methods using numerous keys are susceptible to removal attacks, such as token editing, synonym substitution, and paraphrasing, with robustness declining as the number of keys increases. Therefore, the state-of-the-art watermark schemes that employ fewer or single keys have been demonstrated to be more robust against text editing and paraphrasing. In this paper, we propose a novel green list stealing attack against the state-of-the-art LLM watermark scheme and systematically examine its vulnerability to this attack. We formalize the attack as a mixed integer programming problem with constraints. We evaluate our attack under a comprehensive threat model, including an extreme scenario where the attacker has no prior knowledge, lacks access to the watermark detector API, and possesses no information about the LLM's parameter settings or watermark injection/detection scheme. Extensive experiments on LLMs, such as OPT and LLaMA, demonstrate that our attack can successfully steal the green list and remove the watermark across all settings.