QuantileMark: A Message-Symmetric Multi-bit Watermark for LLMs
作者: Junlin Zhu, Baizhou Huang, Xiaojun Wan
分类: cs.CL
发布日期: 2026-04-15
🔗 代码/项目: GITHUB
💡 一句话要点
QuantileMark:一种消息对称的LLM多比特水印方案,提升水印鲁棒性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多比特水印 大语言模型 消息对称 内容溯源 白盒水印
📋 核心要点
- 现有基于词汇表划分的水印方法在低熵解码时会打破消息对称性,导致水印嵌入质量和解码准确性依赖于消息本身。
- QuantileMark将消息嵌入到连续累积概率区间,通过等质量划分保证每个消息的概率预算固定,实现消息无偏性。
- 实验表明,QuantileMark在多比特恢复和检测鲁棒性方面优于现有方法,同时对生成质量的影响很小。
📝 摘要(中文)
大型语言模型日益成为内容生成的标准后端,实际溯源越来越需要多比特水印技术。在提供商内部部署中,一个关键要求是消息对称性:消息本身不应系统性地影响文本质量或验证结果。词汇表划分水印可能在低熵解码中打破消息对称性:某些消息被分配了大部分概率质量,而另一些消息被迫使用尾部token,导致嵌入质量和消息解码准确性依赖于消息。我们提出了QuantileMark,一种白盒多比特水印,它将消息嵌入到连续累积概率区间[0, 1)中。在每一步,QuantileMark将该区间划分为M个等质量的bin,并严格从分配给目标符号的bin中采样,确保固定的1/M概率预算,而与上下文熵无关。对于检测,验证器在教师强制下重建相同的分区,计算潜在bin上的后验概率,并聚合证据进行验证。我们证明了消息无偏性,这确保了在消息上平均时恢复基本分布。这为生成侧对称性提供了理论基础,而等质量设计还促进了检测侧消息之间的均匀证据强度。在C4续写和LFQA上的实验结果表明,与强大的基线相比,多比特恢复和检测鲁棒性得到了提高,而对生成质量的影响可以忽略不计。我们的代码可在GitHub上找到。
🔬 方法详解
问题定义:现有基于词汇表划分的水印方法在低熵解码场景下,容易出现消息不对称的问题。具体来说,某些消息可能被分配到概率质量高的token,而另一些消息则被迫使用概率质量低的尾部token。这导致水印的嵌入质量和解码准确性严重依赖于消息本身,降低了水印的可靠性和公平性。
核心思路:QuantileMark的核心思路是将消息嵌入到连续累积概率区间[0, 1)中,并对该区间进行等质量划分。通过确保每个消息都对应一个固定概率预算的bin,从而实现消息的无偏性。这种设计使得水印的嵌入和检测过程与消息内容无关,提高了水印的鲁棒性和公平性。
技术框架:QuantileMark主要包含两个阶段:嵌入阶段和检测阶段。在嵌入阶段,模型首先计算每个token的累积概率分布。然后,根据目标消息,将[0, 1)区间划分为M个等质量的bin。模型从目标token对应的bin中进行采样,从而将消息嵌入到生成文本中。在检测阶段,验证器在教师强制下重建相同的概率分区,计算潜在bin上的后验概率,并聚合证据进行验证,从而提取出嵌入的消息。
关键创新:QuantileMark的关键创新在于其消息对称的设计。通过将消息嵌入到连续累积概率区间并进行等质量划分,QuantileMark确保了每个消息都具有相同的概率预算,从而避免了消息不对称的问题。此外,QuantileMark还证明了消息无偏性,为生成侧对称性提供了理论基础。
关键设计:QuantileMark的关键设计包括:1) 使用连续累积概率区间进行消息嵌入;2) 将概率区间划分为M个等质量的bin,其中M是消息空间的大小;3) 在嵌入阶段,严格从目标token对应的bin中进行采样;4) 在检测阶段,使用教师强制重建概率分区,并计算后验概率进行消息提取。
📊 实验亮点
实验结果表明,QuantileMark在C4续写和LFQA任务上,相比现有水印方法,显著提高了多比特恢复和检测的鲁棒性,同时对生成质量的影响可以忽略不计。具体数据指标未在摘要中明确给出,但强调了其优于现有基线。
🎯 应用场景
QuantileMark可应用于各种需要多比特水印的LLM场景,例如内容溯源、版权保护、模型安全等。该方法尤其适用于提供商内部部署,可以有效防止恶意用户篡改或伪造生成内容,保障LLM服务的安全可靠运行。未来,该技术有望推广到更广泛的文本生成领域。
📄 摘要(原文)
As large language models become standard backends for content generation, practical provenance increasingly requires multi-bit watermarking. In provider-internal deployments, a key requirement is message symmetry: the message itself should not systematically affect either text quality or verification outcomes. Vocabulary-partition watermarks can break message symmetry in low-entropy decoding: some messages are assigned most of the probability mass, while others are forced to use tail tokens. This makes embedding quality and message decoding accuracy message-dependent. We propose QuantileMark, a white-box multi-bit watermark that embeds messages within the continuous cumulative probability interval $[0, 1)$. At each step, QuantileMark partitions this interval into $M$ equal-mass bins and samples strictly from the bin assigned to the target symbol, ensuring a fixed $1/M$ probability budget regardless of context entropy. For detection, the verifier reconstructs the same partition under teacher forcing, computes posteriors over latent bins, and aggregates evidence for verification. We prove message-unbiasedness, a property ensuring that the base distribution is recovered when averaging over messages. This provides a theoretical foundation for generation-side symmetry, while the equal-mass design additionally promotes uniform evidence strength across messages on the detection side. Empirical results on C4 continuation and LFQA show improved multi-bit recovery and detection robustness over strong baselines, with negligible impact on generation quality. Our code is available at GitHub (https://github.com/zzzjunlin/QuantileMark).