Dynamics-Level Watermarking of Flow Matching Models with Random Codes
作者: Shuchan Wang
分类: cs.LG
发布日期: 2026-05-15
备注: 18 pages, 3 figures, code available at: https://github.com/ShuchanWang/flow-matching-dynamics-watermarking
💡 一句话要点
提出一种基于随机码的流匹配模型动态层水印方法,用于保护生成模型版权。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 生成模型水印 流匹配模型 动态层面水印 随机编码 版权保护
📋 核心要点
- 现有水印方法通常嵌入在模型权重或输出中,易受攻击且鲁棒性不足,本文旨在解决生成模型的版权保护问题。
- 该方法的核心思想是将水印嵌入到流匹配模型的连续动态中,通过密钥相关的扰动实现,同时保持生成分布不变。
- 实验结果表明,该方法能够在保持生成质量的同时,可靠地恢复水印信息,并且在没有密钥的情况下解码准确率接近随机水平。
📝 摘要(中文)
本文提出了一种动态层面的生成模型水印方法。与将信号嵌入模型权重或输出不同,我们将水印直接嵌入到学习到的连续动态中——流匹配模型的速度场。我们将其表述为连续信道上的随机编码:在训练期间添加一个与密钥相关的扰动,并在检测时从黑盒查询中恢复消息。该扰动旨在保持生成的分布不变。在 MNIST 和 CIFAR-10 上针对不同架构的实验证实了可靠的消息恢复、保持的生成质量以及在没有密钥的情况下机会水平的解码准确性。
🔬 方法详解
问题定义:现有的生成模型水印方法主要集中在模型权重或输出中嵌入水印,这些方法容易受到攻击,例如模型剪枝、微调等,导致水印失效。因此,需要一种更鲁棒的水印方法,能够在保护模型版权的同时,不影响生成模型的性能。
核心思路:本文的核心思路是将水印嵌入到流匹配模型的连续动态中,具体来说,就是嵌入到流匹配模型学习到的速度场中。通过在训练过程中引入一个与密钥相关的扰动,使得模型在学习速度场时包含水印信息。这种方法的优势在于,水印信息分散在整个速度场中,更难被移除或篡改。同时,通过精心设计的扰动,可以保证生成分布基本不变。
技术框架:该方法主要包含两个阶段:水印嵌入阶段和水印检测阶段。在水印嵌入阶段,首先利用密钥生成一个随机码,然后根据该随机码生成一个与密钥相关的扰动,将该扰动添加到流匹配模型的训练过程中。在水印检测阶段,通过黑盒查询生成模型,并分析生成样本的分布,利用密钥恢复水印信息。整体流程类似于在连续信道上进行随机编码和解码。
关键创新:该方法最重要的创新点在于将水印嵌入到流匹配模型的动态层面,而不是传统的权重或输出层面。这种方法具有更强的鲁棒性,能够抵抗各种攻击。此外,该方法还提出了一种基于随机编码的水印嵌入和检测方案,能够有效地隐藏水印信息,同时保证生成模型的性能。
关键设计:在水印嵌入阶段,扰动的选择至关重要。需要保证扰动足够小,以避免影响生成模型的性能,同时又足够大,以便能够有效地嵌入水印信息。论文中具体采用了与密钥相关的随机扰动,并设计了相应的损失函数来约束扰动的大小。在水印检测阶段,需要利用密钥恢复水印信息。论文中采用了一种基于统计分析的方法,通过分析生成样本的分布来判断是否存在水印信息,并恢复水印内容。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在 MNIST 和 CIFAR-10 数据集上取得了良好的效果。在保持生成质量的同时,能够可靠地恢复水印信息。具体来说,在有密钥的情况下,水印恢复的准确率接近 100%,而在没有密钥的情况下,解码准确率接近随机水平。这表明该方法具有很强的安全性和鲁棒性。
🎯 应用场景
该研究成果可应用于生成模型的版权保护,例如图像生成、文本生成等领域。通过嵌入水印,可以有效防止模型被非法复制或篡改,维护模型所有者的权益。此外,该技术还可以用于模型溯源,追踪模型的来源和使用情况,为生成模型的可信性和安全性提供保障。未来,该技术有望在人工智能内容安全领域发挥重要作用。
📄 摘要(原文)
We introduce a dynamics-level approach to watermarking generative models. Rather than embedding signals into model weights or outputs, we embed the watermark directly into the learned continuous dynamics -- the velocity field of a flow matching model. We formulate this as random coding over a continuous channel: a key-dependent perturbation is added during training, and the message is recovered at detection time from black-box queries. The perturbation is designed to leave the generated distribution unchanged. Experiments on MNIST and CIFAR-10 across different architectures confirm reliable message recovery, preserved generation quality, and chance-level decoding accuracy without the secret key.