PRO: Enabling Precise and Robust Text Watermark for Open-Source LLMs

作者: Jiaqi Xue, Yifei Zhao, Mansour Al Ghanim, Shangqian Gao, Ruimin Sun, Qian Lou, Mengxin Zheng

分类: cs.CR, cs.AI, cs.LG

发布日期: 2025-10-27

💡 一句话要点

PRO：为开源LLM实现精确且鲁棒的文本水印，提升知识产权保护能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本水印 开源LLM 知识产权保护 联合训练 鲁棒性 水印检测 模型安全

📋 核心要点

开源LLM的水印技术面临挑战，现有方法难以在不影响检测能力的前提下将水印嵌入模型权重。
PRO方法联合训练水印策略模型和LLM，生成更易学习且与检测标准一致的水印模式，提升水印效果。
实验结果表明，PRO显著提高了水印检测能力，并增强了对模型微调和合并等修改的鲁棒性。

📝 摘要（中文）

本文提出了一种名为PRO的精确且鲁棒的文本水印方法，专门针对开源大型语言模型（LLMs）。由于开发者无法控制解码过程，将闭源LLM的水印方法直接应用于开源模型面临挑战。PRO通过联合训练水印策略模型和LLM，生成更易于模型学习且与检测标准更一致的水印模式。此外，PRO还引入了一个正则化项，模拟下游扰动并惩罚水印检测能力的下降，从而确保模型在经过微调或模型合并等修改后仍具有鲁棒性。在LLaMA-3.2、LLaMA-3和Phi-2等开源LLM上的实验表明，PRO显著提高了水印的检测能力以及对模型修改的抵抗能力。

🔬 方法详解

问题定义：现有文本水印方法在闭源LLM上相对成熟，但直接应用于开源LLM面临挑战。由于无法控制解码过程，水印难以有效嵌入模型权重，导致水印检测效果差，且容易受到下游修改（如微调、模型合并）的影响。因此，需要一种能够抵抗模型修改，且具有良好检测能力的开源LLM水印方案。

核心思路：PRO的核心思路是联合训练LLM和水印策略模型，使得水印模式更容易被LLM学习，并且与水印检测标准更加一致。通过这种方式，避免了预定义水印模式与模型学习到的模式不匹配的问题，从而提升水印的检测能力。同时，引入正则化项，模拟下游扰动，提高水印的鲁棒性。

技术框架：PRO方法包含两个主要组成部分：LLM和一个水印策略模型。LLM负责生成文本，水印策略模型负责在生成过程中引入水印。这两个模型联合训练，目标是生成既符合语言模型规律，又包含可检测水印的文本。此外，训练过程中还引入了正则化项，模拟模型可能受到的下游修改，例如微调或模型合并。

关键创新：PRO的关键创新在于联合训练水印策略模型和LLM，以及引入正则化项来提高水印的鲁棒性。与以往方法相比，PRO不是简单地将预定义的水印模式强加给模型，而是让模型自己学习更容易实现的水印模式。正则化项则模拟了实际应用中可能出现的模型修改，从而提高了水印的实用性。

关键设计：PRO的关键设计包括：1) 水印策略模型的具体结构（例如，可以使用Transformer结构）；2) 联合训练的目标函数，需要平衡文本生成质量和水印检测能力；3) 正则化项的设计，需要能够有效地模拟下游扰动，并惩罚水印检测能力的下降；4) 水印检测器的设计，需要能够准确地检测出文本中是否包含水印。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PRO在LLaMA-3.2、LLaMA-3和Phi-2等开源LLM上显著提高了水印的检测能力和鲁棒性。具体而言，PRO在抵抗模型微调和模型合并等下游修改方面表现出色，水印检测准确率明显优于现有方法。量化指标的提升幅度未知，但摘要中明确说明是“substantially improves”。

🎯 应用场景

PRO方法可应用于开源LLM的知识产权保护，例如，模型所有者可以通过水印验证文本是否由其模型生成，从而防止未经授权的使用和传播。此外，该方法还可以用于检测恶意文本生成，例如，识别由特定模型生成的虚假信息或恶意攻击。

📄 摘要（原文）

Text watermarking for large language models (LLMs) enables model owners to verify text origin and protect intellectual property. While watermarking methods for closed-source LLMs are relatively mature, extending them to open-source models remains challenging, as developers cannot control the decoding process. Consequently, owners of open-source LLMs lack practical means to verify whether text was generated by their models. A core difficulty lies in embedding watermarks directly into model weights without hurting detectability. A promising idea is to distill watermarks from a closed-source model into an open one, but this suffers from (i) poor detectability due to mismatch between learned and predefined patterns, and (ii) fragility to downstream modifications such as fine-tuning or model merging. To overcome these limitations, we propose PRO, a Precise and Robust text watermarking method for open-source LLMs. PRO jointly trains a watermark policy model with the LLM, producing patterns that are easier for the model to learn and more consistent with detection criteria. A regularization term further simulates downstream perturbations and penalizes degradation in watermark detectability, ensuring robustness under model edits. Experiments on open-source LLMs (e.g., LLaMA-3.2, LLaMA-3, Phi-2) show that PRO substantially improves both watermark detectability and resilience to model modifications.

PRO: Enabling Precise and Robust Text Watermark for Open-Source LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理