Functional Subspace Watermarking for Large Language Models

📄 arXiv: 2603.18793v1 📥 PDF

作者: Zikang Ding, Junhao Li, Suling Wu, Junchi Yao, Hongbo Liu, Lijie Hu

分类: cs.CR, cs.AI

发布日期: 2026-03-19


💡 一句话要点

提出功能子空间水印(FSW)方法,增强大语言模型水印对参数扰动的鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 水印技术 功能子空间 知识产权保护 模型鲁棒性

📋 核心要点

  1. 现有LLM水印方法在模型修改(如微调)后,水印特征易受扰动,鲁棒性不足,难以可靠提取。
  2. FSW通过提取稳定的功能子空间,并将水印注入其中,从而将所有权信号锚定到低维功能骨干中。
  3. 实验表明,FSW在多种模型攻击下,检测精度和统计可验证性优于现有SOTA方法,鲁棒性更强。

📝 摘要(中文)

本文提出了一种名为功能子空间水印(FSW)的框架,旨在解决大语言模型(LLM)水印在模型微调、量化或知识蒸馏等修改后鲁棒性不足的问题。FSW将所有权信号锚定到低维功能骨干中。具体而言,首先通过求解广义特征值问题提取稳定的功能子空间,用于水印注入,并引入自适应谱截断策略,以实现鲁棒性和模型效用之间的最佳平衡。此外,还加入了向量一致性约束,以确保水印注入不会损害原始语义性能。在各种LLM架构和数据集上的大量实验表明,该方法在多种模型攻击下实现了卓越的检测精度和统计可验证性,其鲁棒性优于现有的最先进(SOTA)方法。

🔬 方法详解

问题定义:现有的大语言模型水印方法在面对模型微调、量化、知识蒸馏等操作时,水印特征容易受到参数层面的扰动,导致水印提取的准确性和可靠性显著下降。因此,如何设计一种对参数扰动具有更强鲁棒性的水印方案是本文要解决的核心问题。现有方法的痛点在于水印信号与模型的参数直接关联,缺乏对模型功能层面的保护。

核心思路:本文的核心思路是将水印信息嵌入到模型的功能子空间中,而不是直接修改模型的参数。功能子空间代表了模型的核心功能,对参数扰动具有一定的抵抗能力。通过将水印信息嵌入到这个子空间中,可以提高水印的鲁棒性。此外,通过自适应谱截断策略,平衡了水印的鲁棒性和模型本身的效用。

技术框架:FSW框架主要包含以下几个阶段:1) 功能子空间提取:通过求解广义特征值问题,从模型的内部表示中提取出稳定的功能子空间。2) 水印注入:将水印信息嵌入到提取的功能子空间中。3) 向量一致性约束:在水印注入过程中,引入向量一致性约束,以保证水印注入不会对模型的原始语义性能造成显著影响。4) 水印检测:在待验证的模型中提取水印信息,并进行统计分析,以判断该模型是否包含预先注入的水印。

关键创新:FSW的关键创新在于将水印嵌入到模型的“功能子空间”中,而非直接修改参数。这种方法使得水印对参数层面的扰动具有更强的抵抗能力。此外,自适应谱截断策略和向量一致性约束进一步提升了水印的鲁棒性和模型效用。与现有方法相比,FSW能够更好地应对模型修改带来的挑战。

关键设计:1) 广义特征值问题:通过求解广义特征值问题来提取功能子空间,确保提取的子空间具有稳定性。2) 自适应谱截断策略:根据模型的具体情况,自适应地选择截断的特征值数量,以平衡鲁棒性和模型效用。3) 向量一致性约束:通过最小化水印注入前后模型输出向量的差异,来保证模型的语义性能不受影响。4) 水印检测阈值:通过统计假设检验确定水印检测的阈值,以保证水印检测的可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FSW在多种模型攻击下,例如微调、量化和知识蒸馏,仍能保持较高的检测精度和统计可验证性。相较于现有SOTA方法,FSW在鲁棒性方面有显著提升,具体提升幅度取决于攻击类型和模型架构,但整体上优于现有方法。

🎯 应用场景

FSW技术可应用于保护大型语言模型的知识产权,防止未经授权的复制、篡改或商业使用。该技术有助于维护模型开发者的权益,促进LLM生态的健康发展。此外,该技术还可用于溯源模型,追踪恶意模型的来源,从而维护网络安全。

📄 摘要(原文)

Model watermarking utilizes internal representations to protect the ownership of large language models (LLMs). However, these features inevitably undergo complex distortions during realistic model modifications such as fine-tuning, quantization, or knowledge distillation, making reliable extraction extremely challenging. Despite extensive research on model-side watermarking, existing methods still lack sufficient robustness against parameter-level perturbations. To address this gap, we propose \texttt{\textbf{Functional Subspace Watermarking (FSW)}}, a framework that anchors ownership signals into a low-dimensional functional backbone. Specifically, we first solve a generalized eigenvalue problem to extract a stable functional subspace for watermark injection, while introducing an adaptive spectral truncation strategy to achieve an optimal balance between robustness and model utility. Furthermore, a vector consistency constraint is incorporated to ensure that watermark injection does not compromise the original semantic performance. Extensive experiments across various LLM architectures and datasets demonstrate that our method achieves superior detection accuracy and statistical verifiability under multiple model attacks, maintaining robustness that outperforms existing state-of-the-art (SOTA) methods.