SSG: Logit-Balanced Vocabulary Partitioning for LLM Watermarking
作者: Chenxi Gu, Xiaoning Du, John Grundy
分类: cs.CR, cs.AI, cs.CL
发布日期: 2026-04-24
备注: ACL 2026 Main Conference
💡 一句话要点
提出SSG:一种logit平衡的词汇划分方法,提升LLM水印在低熵场景下的检测能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM水印 词汇划分 logit平衡 低熵文本 代码生成
📋 核心要点
- KGW水印方案在低熵场景(如代码生成和数学推理)下性能显著下降,主要原因是其随机词汇划分策略。
- SSG方法的核心思想是设计一种logit平衡的词汇划分算法,提高每个token预测的水印强度下限。
- 实验结果表明,SSG方法在代码生成和数学推理数据集上有效提升了水印的可检测性。
📝 摘要(中文)
水印技术已成为追踪大型语言模型(LLM)生成内容作者身份的一种有前景的方法。在现有方法中,KGW方案因其在自然语言生成中的通用性、效率和有效性而备受关注。然而,KGW的有效性在代码生成和数学推理等低熵设置下会显著降低。KGW方法中的一个关键步骤是随机词汇划分,这使得可以根据特定偏好调整token选择。我们的研究表明,下一个token的概率分布在决定我们能够修改token选择的程度,以及水印的有效性方面起着至关重要的作用。我们将与每个token预测的概率分布相关的这种特性称为“水印强度”。在随机词汇划分的情况下,水印强度的下限由下一个token的概率分布决定。然而,我们发现,通过重新设计词汇划分算法,我们有可能提高这个下限。在本文中,我们提出了一种名为SSG( extbf{S}ort-then- extbf{S}plit by extbf{G}roups,按组排序然后分割)的方法,该方法将词汇表划分为两个logit平衡的子集。这种设计提高了每个token预测的水印强度的下限,从而提高了水印的可检测性。在代码生成和数学推理数据集上的实验证明了SSG的有效性。
🔬 方法详解
问题定义:论文旨在解决KGW水印方案在低熵场景下(如代码生成和数学推理)水印检测能力不足的问题。现有KGW方案采用随机词汇划分,导致在低熵场景下,token概率分布集中,水印强度低,难以有效检测。
核心思路:论文的核心思路是通过重新设计词汇划分算法,提高水印强度下限。具体而言,SSG方法旨在将词汇表划分为两个logit平衡的子集,使得每个子集内的token具有相似的logit值,从而提高水印嵌入和检测的可靠性。
技术框架:SSG方法主要包含以下步骤:1. 对词汇表中所有token的logit值进行排序。2. 将排序后的token分成若干组。3. 将这些组交替分配到两个子集中,从而保证两个子集在logit值上大致平衡。这个过程确保了两个子集具有相似的概率分布,从而提高了水印强度。
关键创新:SSG方法的关键创新在于提出了logit平衡的词汇划分策略,与KGW的随机划分相比,SSG能够更有效地利用token的概率分布信息,从而提高水印强度。这种方法避免了随机划分可能导致的子集概率分布不平衡问题,尤其是在低熵场景下,这种平衡性至关重要。
关键设计:SSG方法的关键设计在于分组数量的选择。分组数量影响着子集logit平衡的程度。分组数量太少可能导致子集间logit差异较大,分组数量太多则可能降低划分的效率。论文中可能通过实验确定了最佳的分组数量。此外,SSG方法与KGW方案的水印嵌入和检测机制兼容,无需修改原有的水印嵌入和检测流程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SSG方法在代码生成和数学推理数据集上显著提高了水印的可检测性。相较于KGW方案,SSG方法在保持相似生成质量的前提下,能够更可靠地检测出水印,尤其是在低熵场景下,提升效果更为明显。具体的性能数据(如检测准确率、误报率等)需要在论文中查找。
🎯 应用场景
SSG方法可应用于代码生成、数学推理等低熵文本生成场景,用于保护LLM生成内容的版权和溯源。该方法能够有效提高水印的鲁棒性和检测率,防止恶意篡改和伪造。此外,SSG方法还可以扩展到其他类型的水印方案中,提升LLM生成内容的安全性和可信度。
📄 摘要(原文)
Watermarking has emerged as a promising technique for tracing the authorship of content generated by large language models (LLMs). Among existing approaches, the KGW scheme is particularly attractive due to its versatility, efficiency, and effectiveness in natural language generation. However, KGW's effectiveness degrades significantly under low-entropy settings such as code generation and mathematical reasoning. A crucial step in the KGW method is random vocabulary partitioning, which enables adjustments to token selection based on specific preferences. Our study revealed that the next-token probability distribution plays an critical role in determining how much, or even whether, we can modify token selection and, consequently, the effectiveness of watermarking. We refer to this characteristic, associated with the probability distribution of each token prediction, as \emph{watermark strength.} In cases of random vocabulary partitioning, the lower bound of watermark strength is dictated by the next-token probability distribution. However, we found that, by redesigning the vocabulary partitioning algorithm, we can potentially raise this lower bound. In this paper, we propose SSG (\textbf{S}ort-then-\textbf{S}plit by \textbf{G}roups), a method that partitions the vocabulary into two logit-balanced subsets. This design lifts the lower bound of watermark strength for each token prediction, thereby improving watermark detectability. Experiments on code generation and mathematical reasoning datasets demonstrate the effectiveness of SSG.