Block-wise Codeword Embedding for Reliable Multi-bit Text Watermarking

📄 arXiv: 2605.00348v1 📥 PDF

作者: Joeun Kim, HoEun Kim, Dongsup Jin, Young-Sik Kim

分类: cs.CR, cs.CL

发布日期: 2026-05-01


💡 一句话要点

提出BREW框架,解决多比特文本水印中高误报率问题,实现可靠的指定验证。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本水印 大型语言模型 信息隐藏 可靠性 指定验证

📋 核心要点

  1. 现有LLM多比特水印方法可靠性低,解码与检测易混淆,基于ECC的提取器误报率高。
  2. BREW框架采用分块可靠嵌入,通过盲消息估计和窗口滑动验证实现指定验证。
  3. 实验表明,BREW在同义词替换下能显著降低误报率,同时保持较高的检测灵敏度。

📝 摘要(中文)

针对大型语言模型(LLM)的多比特水印方法通常优先考虑容量而忽略可靠性,容易混淆解码和检测。本文分析发现,现有的基于纠错码(ECC)的提取器存在灾难性的高误报率(FPR),并且应用拒绝阈值只会使检测灵敏度(TPR)降低到随机猜测的水平。为了解决这个结构性限制,我们提出了BREW(Block-wise Reliable Embedding for Watermarking),一个将范式转变为“指定验证”的框架。BREW采用两阶段机制:(i)通过独立的块投票进行盲消息估计,然后(ii)窗口滑动验证,严格验证有效载荷以防止局部编辑。实验表明,在10%的同义词替换下,BREW实现了0.965的TPR和0.02的FPR,表明高FPR问题不是多比特水印固有的权衡,而是先前以解码为中心的设计中可解决的结构性缺陷。我们的框架是模型无关的,并且具有理论基础,为可靠的取证部署提供了可扩展的解决方案。

🔬 方法详解

问题定义:现有的大型语言模型文本水印方法,尤其是在多比特水印方面,往往过于关注水印容量,而忽略了水印的可靠性。具体表现为,基于纠错码的提取器在高误报率(FPR)方面表现很差,即使采用拒绝阈值也无法有效降低误报率,反而会牺牲检测率(TPR),导致水印检测效果接近随机猜测。因此,需要解决如何在保证水印容量的同时,显著降低误报率,提高水印的可靠性问题。

核心思路:BREW的核心思路是将水印检测范式从传统的“解码为中心”转变为“指定验证”。这意味着不再试图直接从文本中解码出水印信息,而是首先通过一种方式估计出可能的水印信息,然后通过一种严格的验证机制来确认该水印信息是否真实存在于文本中。这种两阶段的方法可以有效地降低误报率,提高水印的可靠性。

技术框架:BREW框架主要包含两个阶段:1) 盲消息估计:将文本分成多个独立的块,每个块独立地投票决定该块所代表的水印信息。通过对所有块的投票结果进行汇总,得到对整个水印信息的初步估计。2) 窗口滑动验证:使用一个滑动窗口在文本上滑动,对于每个窗口,验证该窗口内的文本是否与初步估计的水印信息相符。通过对所有窗口的验证结果进行汇总,最终确定文本中是否包含该水印信息。

关键创新:BREW的关键创新在于其“指定验证”的范式转变。与传统的“解码为中心”的方法不同,BREW首先估计水印信息,然后验证该信息是否存在。这种方法可以有效地利用文本中的冗余信息,提高水印的鲁棒性和可靠性。此外,BREW的分块投票机制和窗口滑动验证机制也为水印的检测提供了更精细的控制,可以有效地降低误报率。

关键设计:BREW框架的设计是模型无关的,这意味着它可以应用于各种不同的语言模型。在盲消息估计阶段,可以使用各种不同的嵌入方法将文本块映射到水印信息。在窗口滑动验证阶段,可以使用各种不同的相似度度量方法来判断窗口内的文本是否与水印信息相符。具体的参数设置,例如块的大小、窗口的大小、相似度阈值等,需要根据具体的应用场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在10%的同义词替换攻击下,BREW框架能够实现0.965的TPR(真阳性率)和0.02的FPR(假阳性率)。这表明BREW在保证较高检测率的同时,能够显著降低误报率,解决了传统多比特水印方法中高误报率的问题。该结果证明了BREW框架的有效性和优越性。

🎯 应用场景

BREW框架可广泛应用于大型语言模型的版权保护、内容溯源和信息安全领域。例如,可以用于检测AI生成文本的来源,防止恶意用户伪造内容。此外,该框架还可以用于验证文本的完整性,防止篡改。由于其模型无关性,BREW可以方便地集成到各种现有的LLM应用中,具有很高的实际应用价值和潜力。

📄 摘要(原文)

Recent multi-bit watermarking methods for large language models (LLMs) prioritize capacity over reliability, often conflating decoding with detection. Our analysis reveals that existing ECC-based extractors suffer from catastrophic false positive rates (FPR), and applying rejection thresholds merely collapses detection sensitivity (TPR) to random guessing. To resolve this structural limitation, we propose \textbf{BREW} (Block-wise Reliable Embedding for Watermarking), a framework shifting the paradigm to \emph{designated verification}. BREW employs a two-stage mechanism: (i) \textbf{blind message estimation} via independent block voting, followed by (ii) \textbf{window-shifting verification} that rigorously validates the payload against local edits. Experiments demonstrate that BREW achieves a TPR of 0.965 with an FPR of 0.02 under 10\% synonym substitution, demonstrating that the high-FPR issue is not an inherent trade-off of multi-bit watermarking, but a solvable structural flaw of prior decoding-centric designs. Our framework is model-agnostic and theoretically grounded, providing a scalable solution for reliable forensic deployment.