QuantileMark: A Message-Symmetric Multi-bit Watermark for LLMs

作者: Junlin Zhu, Baizhou Huang, Xiaojun Wan

分类: cs.CL

发布日期: 2026-04-15

🔗 代码/项目: GITHUB

💡 一句话要点

QuantileMark：一种消息对称的LLM多比特水印方案，提升水印鲁棒性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多比特水印 大语言模型 消息对称 内容溯源 白盒水印

📋 核心要点

现有基于词汇表划分的水印方法在低熵解码时会打破消息对称性，导致水印嵌入质量和解码准确性依赖于消息本身。
QuantileMark将消息嵌入到连续累积概率区间，通过等质量划分保证每个消息的概率预算固定，实现消息无偏性。
实验表明，QuantileMark在多比特恢复和检测鲁棒性方面优于现有方法，同时对生成质量的影响很小。

📝 摘要（中文）

大型语言模型日益成为内容生成的标准后端，实际溯源越来越需要多比特水印技术。在提供商内部部署中，一个关键要求是消息对称性：消息本身不应系统性地影响文本质量或验证结果。词汇表划分水印可能在低熵解码中打破消息对称性：某些消息被分配了大部分概率质量，而另一些消息被迫使用尾部token，导致嵌入质量和消息解码准确性依赖于消息。我们提出了QuantileMark，一种白盒多比特水印，它将消息嵌入到连续累积概率区间[0, 1)中。在每一步，QuantileMark将该区间划分为M个等质量的bin，并严格从分配给目标符号的bin中采样，确保固定的1/M概率预算，而与上下文熵无关。对于检测，验证器在教师强制下重建相同的分区，计算潜在bin上的后验概率，并聚合证据进行验证。我们证明了消息无偏性，这确保了在消息上平均时恢复基本分布。这为生成侧对称性提供了理论基础，而等质量设计还促进了检测侧消息之间的均匀证据强度。在C4续写和LFQA上的实验结果表明，与强大的基线相比，多比特恢复和检测鲁棒性得到了提高，而对生成质量的影响可以忽略不计。我们的代码可在GitHub上找到。

🔬 方法详解

问题定义：现有基于词汇表划分的水印方法在低熵解码场景下，容易出现消息不对称的问题。具体来说，某些消息可能被分配到概率质量高的token，而另一些消息则被迫使用概率质量低的尾部token。这导致水印的嵌入质量和解码准确性严重依赖于消息本身，降低了水印的可靠性和公平性。

核心思路：QuantileMark的核心思路是将消息嵌入到连续累积概率区间[0, 1)中，并对该区间进行等质量划分。通过确保每个消息都对应一个固定概率预算的bin，从而实现消息的无偏性。这种设计使得水印的嵌入和检测过程与消息内容无关，提高了水印的鲁棒性和公平性。

技术框架：QuantileMark主要包含两个阶段：嵌入阶段和检测阶段。在嵌入阶段，模型首先计算每个token的累积概率分布。然后，根据目标消息，将[0, 1)区间划分为M个等质量的bin。模型从目标token对应的bin中进行采样，从而将消息嵌入到生成文本中。在检测阶段，验证器在教师强制下重建相同的概率分区，计算潜在bin上的后验概率，并聚合证据进行验证，从而提取出嵌入的消息。

关键创新：QuantileMark的关键创新在于其消息对称的设计。通过将消息嵌入到连续累积概率区间并进行等质量划分，QuantileMark确保了每个消息都具有相同的概率预算，从而避免了消息不对称的问题。此外，QuantileMark还证明了消息无偏性，为生成侧对称性提供了理论基础。

关键设计：QuantileMark的关键设计包括：1) 使用连续累积概率区间进行消息嵌入；2) 将概率区间划分为M个等质量的bin，其中M是消息空间的大小；3) 在嵌入阶段，严格从目标token对应的bin中进行采样；4) 在检测阶段，使用教师强制重建概率分区，并计算后验概率进行消息提取。

📊 实验亮点

实验结果表明，QuantileMark在C4续写和LFQA任务上，相比现有水印方法，显著提高了多比特恢复和检测的鲁棒性，同时对生成质量的影响可以忽略不计。具体数据指标未在摘要中明确给出，但强调了其优于现有基线。

🎯 应用场景

QuantileMark可应用于各种需要多比特水印的LLM场景，例如内容溯源、版权保护、模型安全等。该方法尤其适用于提供商内部部署，可以有效防止恶意用户篡改或伪造生成内容，保障LLM服务的安全可靠运行。未来，该技术有望推广到更广泛的文本生成领域。

📄 摘要（原文）

As large language models become standard backends for content generation, practical provenance increasingly requires multi-bit watermarking. In provider-internal deployments, a key requirement is message symmetry: the message itself should not systematically affect either text quality or verification outcomes. Vocabulary-partition watermarks can break message symmetry in low-entropy decoding: some messages are assigned most of the probability mass, while others are forced to use tail tokens. This makes embedding quality and message decoding accuracy message-dependent. We propose QuantileMark, a white-box multi-bit watermark that embeds messages within the continuous cumulative probability interval $[0, 1)$. At each step, QuantileMark partitions this interval into $M$ equal-mass bins and samples strictly from the bin assigned to the target symbol, ensuring a fixed $1/M$ probability budget regardless of context entropy. For detection, the verifier reconstructs the same partition under teacher forcing, computes posteriors over latent bins, and aggregates evidence for verification. We prove message-unbiasedness, a property ensuring that the base distribution is recovered when averaging over messages. This provides a theoretical foundation for generation-side symmetry, while the equal-mass design additionally promotes uniform evidence strength across messages on the detection side. Empirical results on C4 continuation and LFQA show improved multi-bit recovery and detection robustness over strong baselines, with negligible impact on generation quality. Our code is available at GitHub (https://github.com/zzzjunlin/QuantileMark).

QuantileMark: A Message-Symmetric Multi-bit Watermark for LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理