Unified attacks to large language model watermarks: spoofing and scrubbing in unauthorized knowledge distillation

📄 arXiv: 2504.17480v4 📥 PDF

作者: Xin Yi, Yue Li, Shunfan Zheng, Linlin Wang, Xiaoling Wang, Liang He

分类: cs.CL

发布日期: 2025-04-24 (更新: 2025-08-25)


💡 一句话要点

提出CDG-KD框架,实现对大语言模型水印的伪造与擦除攻击,对抗非授权知识蒸馏。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 水印攻击 知识蒸馏 对比解码 模型安全

📋 核心要点

  1. 现有水印攻击方法通常需要访问模型内部,或无法同时支持擦除和伪造两种攻击。
  2. 提出对比解码引导的知识蒸馏(CDG-KD)框架,通过对比解码提取水印信息,实现双向攻击。
  3. 实验表明CDG-KD能有效攻击水印,同时保持模型性能,揭示了现有水印方案的脆弱性。

📝 摘要(中文)

水印技术已成为应对大型语言模型(LLM)中的虚假信息和保护知识产权的关键技术。最近的一项发现,即水印放射性,揭示了嵌入在教师模型中的水印可以通过知识蒸馏传递给学生模型。从积极的方面来看,这种继承允许通过识别学生模型中的水印痕迹来检测未经授权的知识蒸馏。然而,在未经授权的知识蒸馏下,水印对于擦除攻击的鲁棒性和对于伪造攻击的不可伪造性在很大程度上仍未被探索。现有的水印攻击方法要么假设可以访问模型内部结构,要么无法同时支持擦除和伪造攻击。在这项工作中,我们提出了对比解码引导的知识蒸馏(CDG-KD),这是一个统一的框架,可以在未经授权的知识蒸馏下实现双向攻击。我们的方法采用对比解码,通过比较学生模型和弱水印参考模型的输出来提取损坏或放大的水印文本,然后进行双向蒸馏,以训练能够去除水印和伪造水印的新学生模型。大量的实验表明,CDG-KD有效地执行攻击,同时保持了蒸馏模型的一般性能。我们的发现强调了开发鲁棒且不可伪造的水印方案的迫切需要。

🔬 方法详解

问题定义:论文旨在解决在未经授权的知识蒸馏场景下,现有水印技术易受擦除和伪造攻击的问题。现有水印攻击方法的痛点在于,要么需要访问模型内部结构,这在实际应用中通常不可行;要么只能针对单一类型的攻击(擦除或伪造),缺乏通用性。因此,需要一种能够在不访问模型内部结构的情况下,同时支持擦除和伪造攻击的统一框架。

核心思路:论文的核心思路是利用对比解码(Contrastive Decoding)来提取或放大模型输出中的水印信息,并以此为指导进行知识蒸馏。通过对比学生模型和弱水印参考模型的输出,可以识别出与水印相关的文本模式。然后,通过双向蒸馏,分别训练出能够去除水印和伪造水印的学生模型。这种方法的关键在于利用对比解码来获取水印信息,而无需直接访问模型内部参数。

技术框架:CDG-KD框架主要包含以下几个阶段: 1. 弱水印参考模型构建:首先,需要一个包含弱水印的参考模型,用于对比解码。 2. 对比解码:利用对比解码技术,比较学生模型和弱水印参考模型的输出,提取或放大与水印相关的文本。 3. 双向蒸馏:基于对比解码的结果,进行双向知识蒸馏。一方面,训练一个能够去除水印的学生模型;另一方面,训练一个能够伪造水印的学生模型。 4. 模型评估:评估攻击效果,包括水印去除率、水印伪造成功率以及模型性能。

关键创新:该论文最重要的技术创新点在于提出了一个统一的框架(CDG-KD),能够在未经授权的知识蒸馏场景下,同时支持水印的擦除和伪造攻击。与现有方法相比,CDG-KD不需要访问模型内部结构,并且具有更强的通用性。此外,利用对比解码来提取水印信息也是一个重要的创新点,它允许在不直接访问模型参数的情况下,识别和利用水印。

关键设计: * 对比解码策略:具体如何设计对比解码算法,以有效地提取水印信息?例如,使用KL散度来衡量学生模型和参考模型输出分布的差异,并以此作为指导信号。 * 双向蒸馏损失函数:如何设计损失函数,以同时优化水印去除和水印伪造的效果?例如,可以设计一个对抗损失,使得擦除模型能够生成不包含水印的文本,而伪造模型能够生成包含特定水印的文本。 * 弱水印参考模型的选择:如何选择或构建弱水印参考模型,以保证对比解码的有效性?例如,可以使用添加了少量噪声的水印模型作为参考模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CDG-KD框架能够有效地擦除和伪造大语言模型中的水印,同时保持模型性能。具体来说,在一定条件下,可以实现接近100%的水印擦除率和较高的水印伪造成功率。这些结果表明,现有水印方案在面对恶意攻击时存在显著的安全隐患,需要进一步改进。

🎯 应用场景

该研究成果可应用于评估和提升大语言模型水印技术的安全性。通过模拟攻击场景,可以发现现有水印方案的脆弱性,并为设计更鲁棒、更安全的水印方案提供指导。此外,该研究也提醒人们关注知识蒸馏可能带来的安全风险,促进对模型安全性的全面评估。

📄 摘要(原文)

Watermarking has emerged as a critical technique for combating misinformation and protecting intellectual property in large language models (LLMs). A recent discovery, termed watermark radioactivity, reveals that watermarks embedded in teacher models can be inherited by student models through knowledge distillation. On the positive side, this inheritance allows for the detection of unauthorized knowledge distillation by identifying watermark traces in student models. However, the robustness of watermarks against scrubbing attacks and their unforgeability in the face of spoofing attacks under unauthorized knowledge distillation remain largely unexplored. Existing watermark attack methods either assume access to model internals or fail to simultaneously support both scrubbing and spoofing attacks. In this work, we propose Contrastive Decoding-Guided Knowledge Distillation (CDG-KD), a unified framework that enables bidirectional attacks under unauthorized knowledge distillation. Our approach employs contrastive decoding to extract corrupted or amplified watermark texts via comparing outputs from the student model and weakly watermarked references, followed by bidirectional distillation to train new student models capable of watermark removal and watermark forgery, respectively. Extensive experiments show that CDG-KD effectively performs attacks while preserving the general performance of the distilled model. Our findings underscore critical need for developing watermarking schemes that are robust and unforgeable.