WET: Overcoming Paraphrasing Vulnerabilities in Embeddings-as-a-Service with Linear Transformation Watermarks

📄 arXiv: 2409.04459v2 📥 PDF

作者: Anudeex Shetty, Qiongkai Xu, Jey Han Lau

分类: cs.CR, cs.CL, cs.LG

发布日期: 2024-08-29 (更新: 2025-05-31)

备注: Accepted to ACL 2025 (Main Proceedings)


💡 一句话要点

提出一种基于线性变换水印的EaaS水印方法,克服复述攻击的脆弱性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: EaaS水印 线性变换 复述攻击 知识产权保护 嵌入向量 模仿攻击 模型安全

📋 核心要点

  1. 现有的EaaS水印技术在面对模仿攻击者通过复述手段进行克隆时,容易被移除,无法有效保护EaaS提供商的知识产权。
  2. 论文提出一种新的水印技术,通过对嵌入向量进行线性变换,使得水印信息更加隐蔽,从而增强对复述攻击的鲁棒性。
  3. 实验结果表明,该方法在经验和理论上都能够有效抵抗复述攻击,显著提升了EaaS水印的安全性。

📝 摘要(中文)

Embedding-as-a-Service (EaaS) 是大型语言模型 (LLM) 开发者提供的一种服务,用于提供由 LLM 生成的嵌入向量。先前的研究表明,EaaS 容易受到模仿攻击的影响,即通过在查询到的嵌入向量上训练另一个模型来克隆底层 EaaS 模型。因此,EaaS 水印被引入以保护 EaaS 提供商的知识产权。在本文中,我们首先表明,当攻击者克隆模型时,现有的 EaaS 水印可以通过复述来移除。随后,我们提出了一种新颖的水印技术,该技术涉及线性变换嵌入向量,并表明它在经验和理论上对复述具有鲁棒性。

🔬 方法详解

问题定义:EaaS(Embedding-as-a-Service)面临模仿攻击的威胁,攻击者通过查询EaaS获取嵌入向量,并在此基础上训练自己的模型来克隆EaaS模型。为了保护EaaS提供商的知识产权,需要引入水印技术。然而,现有的水印技术容易受到复述攻击的影响,即攻击者通过对嵌入向量进行语义等价的变换(如释义)来移除水印,从而绕过保护机制。

核心思路:论文的核心思路是通过对嵌入向量进行线性变换来嵌入水印。线性变换具有良好的数学性质,可以保证水印的隐蔽性和鲁棒性。同时,精心设计的线性变换可以使得水印对复述攻击具有抵抗能力,因为复述通常不会改变嵌入向量的线性结构。

技术框架:该水印技术的整体流程如下:1) EaaS提供商在生成嵌入向量后,对其进行线性变换,嵌入水印信息。2) 攻击者尝试克隆EaaS模型,并可能使用复述等手段来移除水印。3) EaaS提供商通过检测嵌入向量中是否存在特定的线性结构来验证水印,从而判断是否存在侵权行为。主要模块包括:嵌入向量生成模块、线性变换水印嵌入模块、水印检测模块。

关键创新:该方法最重要的技术创新点在于使用线性变换来嵌入水印,并证明了其对复述攻击的鲁棒性。与现有水印方法相比,线性变换水印更加隐蔽,难以被攻击者察觉和移除。此外,该方法还提供了理论分析,证明了线性变换水印在一定条件下对复述攻击的抵抗能力。

关键设计:线性变换的具体形式可以根据实际需求进行设计。例如,可以使用正交矩阵或稀疏矩阵来进行变换,以保证水印的隐蔽性和鲁棒性。水印检测可以通过计算嵌入向量的特定线性组合来实现,如果结果满足一定的阈值,则认为存在水印。损失函数的设计需要考虑水印的隐蔽性和鲁棒性,例如可以使用对抗损失来训练线性变换矩阵,使得攻击者难以通过复述来移除水印。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的线性变换水印技术能够有效抵抗复述攻击,显著优于现有的水印方法。具体而言,在面对不同类型的复述攻击时,该方法的检测准确率保持在较高水平,而现有方法的准确率则大幅下降。这验证了该方法在经验上的有效性和鲁棒性。

🎯 应用场景

该研究成果可应用于保护Embedding-as-a-Service (EaaS) 模型的知识产权,防止恶意克隆和滥用。通过嵌入鲁棒的水印,EaaS提供商可以有效追踪和识别侵权行为,维护自身权益。此外,该技术也可推广到其他类型的模型保护场景,例如图像、音频等数据的版权保护。

📄 摘要(原文)

Embeddings-as-a-Service (EaaS) is a service offered by large language model (LLM) developers to supply embeddings generated by LLMs. Previous research suggests that EaaS is prone to imitation attacks -- attacks that clone the underlying EaaS model by training another model on the queried embeddings. As a result, EaaS watermarks are introduced to protect the intellectual property of EaaS providers. In this paper, we first show that existing EaaS watermarks can be removed by paraphrasing when attackers clone the model. Subsequently, we propose a novel watermarking technique that involves linearly transforming the embeddings, and show that it is empirically and theoretically robust against paraphrasing.