RAG-WM: An Efficient Black-Box Watermarking Approach for Retrieval-Augmented Generation of Large Language Models

📄 arXiv: 2501.05249v1 📥 PDF

作者: Peizhuo Lv, Mengjie Sun, Hao Wang, Xiaofeng Wang, Shengzhi Zhang, Yuxuan Chen, Kai Chen, Limin Sun

分类: cs.CR, cs.AI

发布日期: 2025-01-09


💡 一句话要点

提出RAG-WM,一种高效的黑盒水印方法,用于检索增强生成大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大语言模型 知识产权保护 黑盒水印 多LLM交互

📋 核心要点

  1. 现有水印方法难以直接应用于RAG,因为RAG知识库通常无法进行白盒访问,且文本水印易受LLM后处理攻击。
  2. RAG-WM通过多LLM交互框架,生成基于实体关系的水印文本,并将其注入到目标RAG中,实现黑盒水印。
  3. 实验表明,RAG-WM能有效检测被盗RAG,且对释义、内容删除、知识插入等攻击具有鲁棒性,并能规避现有水印检测。

📝 摘要(中文)

近年来,检索增强生成(RAG)取得了巨大的成功,被广泛用于增强大语言模型(LLM)在特定领域、知识密集型和隐私敏感型任务中的能力。然而,攻击者可能会窃取这些有价值的RAG并进行部署或商业化,因此检测知识产权(IP)侵权至关重要。现有的大多数所有权保护解决方案,如水印,都是为关系数据库和文本设计的。它们不能直接应用于RAG,因为关系数据库水印需要白盒访问才能检测IP侵权,这对于RAG中的知识库是不现实的。同时,对手部署的LLM进行的后处理通常会破坏文本水印信息。为了解决这些问题,我们提出了一种新颖的黑盒“知识水印”方法,名为RAG-WM,用于检测RAG的IP侵权。RAG-WM使用多LLM交互框架,包括水印生成器、影子LLM & RAG和水印判别器,以基于水印实体关系元组创建水印文本,并将其注入目标RAG。我们在四个基准LLM上,针对三个特定领域和两个隐私敏感型任务评估了RAG-WM。实验结果表明,RAG-WM可以有效地检测各种已部署LLM中被盗的RAG。此外,RAG-WM对释义、无关内容删除、知识插入和知识扩展攻击具有鲁棒性。最后,RAG-WM还可以规避水印检测方法,突显了其在检测RAG系统IP侵权方面的应用前景。

🔬 方法详解

问题定义:论文旨在解决RAG系统知识产权侵权检测问题。现有水印方法主要针对关系数据库或文本,无法直接应用于RAG。关系数据库水印需要白盒访问,这在实际应用中通常不可行。而文本水印容易受到攻击者使用LLM进行释义、删除等后处理的破坏,导致水印失效。

核心思路:论文的核心思路是设计一种黑盒水印方法,即不需要访问RAG内部知识库,也能有效检测IP侵权。通过构建多LLM交互框架,生成与RAG知识相关的“知识水印”,并将其嵌入到RAG的输出中。即使攻击者对RAG输出进行修改,水印信息仍然能够被检测出来。

技术框架:RAG-WM包含三个主要模块:1) 水印生成器:负责生成基于水印实体关系元组的水印文本。2) 影子LLM & RAG:用于模拟目标RAG的行为,并将水印文本注入到RAG的输出中。3) 水印判别器:用于检测RAG输出中是否存在水印信息,从而判断是否存在IP侵权。整个流程通过多LLM之间的交互完成,无需访问目标RAG的内部结构。

关键创新:RAG-WM的关键创新在于提出了一种黑盒“知识水印”的概念,将水印信息与RAG的知识内容相关联。这种方法不需要白盒访问,并且对LLM的后处理攻击具有更强的鲁棒性。此外,RAG-WM还设计了一种多LLM交互框架,实现了水印的生成、注入和检测。

关键设计:水印生成器利用LLM根据预定义的水印实体关系元组生成自然语言描述。影子LLM & RAG模拟目标RAG的行为,并控制水印文本的注入比例。水印判别器使用LLM判断给定的文本是否包含预定义的水印信息。具体参数设置包括LLM的选择、水印实体关系元组的定义、注入比例的控制等。论文还考虑了不同的攻击场景,并设计了相应的防御策略。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,RAG-WM在各种已部署的LLM上都能有效检测被盗的RAG。在三个特定领域和两个隐私敏感型任务上进行了评估,证明了RAG-WM的有效性。此外,RAG-WM对释义、无关内容删除、知识插入和知识扩展等攻击具有鲁棒性,并且能够规避现有的水印检测方法。这些结果表明RAG-WM在实际应用中具有很强的竞争力。

🎯 应用场景

RAG-WM可应用于各种知识密集型和隐私敏感型任务,例如金融分析、医疗诊断、法律咨询等。它可以帮助保护RAG系统的知识产权,防止未经授权的复制、部署和商业化。该研究对于促进RAG技术的可信发展和应用具有重要意义,并为未来的知识产权保护研究提供了新的思路。

📄 摘要(原文)

In recent years, tremendous success has been witnessed in Retrieval-Augmented Generation (RAG), widely used to enhance Large Language Models (LLMs) in domain-specific, knowledge-intensive, and privacy-sensitive tasks. However, attackers may steal those valuable RAGs and deploy or commercialize them, making it essential to detect Intellectual Property (IP) infringement. Most existing ownership protection solutions, such as watermarks, are designed for relational databases and texts. They cannot be directly applied to RAGs because relational database watermarks require white-box access to detect IP infringement, which is unrealistic for the knowledge base in RAGs. Meanwhile, post-processing by the adversary's deployed LLMs typically destructs text watermark information. To address those problems, we propose a novel black-box "knowledge watermark" approach, named RAG-WM, to detect IP infringement of RAGs. RAG-WM uses a multi-LLM interaction framework, comprising a Watermark Generator, Shadow LLM & RAG, and Watermark Discriminator, to create watermark texts based on watermark entity-relationship tuples and inject them into the target RAG. We evaluate RAG-WM across three domain-specific and two privacy-sensitive tasks on four benchmark LLMs. Experimental results show that RAG-WM effectively detects the stolen RAGs in various deployed LLMs. Furthermore, RAG-WM is robust against paraphrasing, unrelated content removal, knowledge insertion, and knowledge expansion attacks. Lastly, RAG-WM can also evade watermark detection approaches, highlighting its promising application in detecting IP infringement of RAG systems.