Distilling the Thought, Watermarking the Answer: A Principle Semantic Guided Watermark for Large Reasoning Models

📄 arXiv: 2601.05144v1 📥 PDF

作者: Shuliang Liu, Xingyu Li, Hongyi Liu, Yibo Yan, Bingchen Duan, Qi Zheng, Dong Fang, Lingfeng Su, Xuming Hu

分类: cs.AI

发布日期: 2026-01-08


💡 一句话要点

ReasonMark:一种面向大语言模型推理过程的语义引导水印方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理模型 数字水印 语义引导 可追溯性

📋 核心要点

  1. 现有token级水印方法通过引入伪随机偏差会破坏推理流程,而语义感知方法虽然提高了质量,但引入了显著的延迟或需要辅助模型。
  2. ReasonMark的核心思想是将生成过程分为无干扰的思考阶段和带水印的回答阶段,并利用Principal Semantic Vector (PSV)引导水印强度。
  3. 实验结果表明,ReasonMark在降低困惑度、提高翻译质量和数学准确率的同时,提高了水印检测的AUC,并增强了对攻击的鲁棒性。

📝 摘要(中文)

针对擅长复杂任务的推理大语言模型(RLLM),本文提出了一种新颖的水印框架ReasonMark,旨在解决现有水印方法破坏逻辑一致性或计算成本过高的问题。ReasonMark将生成过程解耦为不受干扰的思考阶段和带水印的回答阶段。通过关键性评分识别推理轨迹中的语义关键token,并将其提炼为Principal Semantic Vector (PSV)。PSV引导一种语义自适应机制,根据token与PSV的对齐程度调节水印强度,确保鲁棒性而不损害逻辑完整性。实验表明,ReasonMark优于现有方法,文本困惑度降低0.35,翻译BLEU得分提高0.164,数学准确率提高0.67个百分点。同时,水印检测AUC提高0.34%,对攻击的鲁棒性更强,且延迟增加可忽略不计。该工作使推理LLM在实际应用中的可追溯和可信部署成为可能。

🔬 方法详解

问题定义:现有的大型语言模型水印方法在推理场景下存在问题。Token级别的水印方法会干扰模型的推理过程,影响生成文本的逻辑连贯性。而语义感知的水印方法虽然能提升生成质量,但通常需要引入额外的计算开销或者依赖辅助模型,导致延迟增加,不适用于对实时性要求较高的场景。

核心思路:ReasonMark的核心思路是将LLM的生成过程解耦为两个阶段:一个不受水印干扰的“思考阶段”和一个带有水印的“回答阶段”。通过在回答阶段引入水印,避免了对推理过程的直接干扰。同时,利用从推理轨迹中提取的Principal Semantic Vector (PSV)来引导水印的强度,使得水印能够自适应地调整,从而在保证鲁棒性的同时,尽可能地减少对生成质量的影响。

技术框架:ReasonMark框架主要包含以下几个模块:1) 推理轨迹提取:从LLM的推理过程中提取token序列。2) 关键性评分:计算每个token的Criticality Score,用于衡量其在推理过程中的重要性。3) Principal Semantic Vector (PSV)构建:根据Criticality Score,将重要的token提炼成PSV。4) 语义自适应水印:利用PSV引导水印的强度,使得水印能够根据token与PSV的对齐程度进行调整。5) 带水印的生成:在回答阶段,根据语义自适应水印的强度,生成带有水印的文本。

关键创新:ReasonMark的关键创新在于:1) 解耦生成过程:将生成过程分为思考和回答两个阶段,避免了水印对推理过程的直接干扰。2) Principal Semantic Vector (PSV):利用Criticality Score从推理轨迹中提取PSV,用于引导水印的强度。3) 语义自适应水印:根据token与PSV的对齐程度,自适应地调整水印的强度,从而在保证鲁棒性的同时,尽可能地减少对生成质量的影响。

关键设计:Criticality Score的计算方式(具体公式未知,但用于衡量token的重要性),PSV的构建方法(如何从关键token中提取语义信息,具体算法未知),语义自适应水印的实现细节(如何根据token与PSV的对齐程度调整水印强度,具体公式或网络结构未知)。这些细节决定了ReasonMark的性能和鲁棒性。

📊 实验亮点

实验结果表明,ReasonMark在多个任务上优于现有水印方法。在文本生成任务中,文本困惑度降低了0.35。在翻译任务中,BLEU得分提高了0.164。在数学推理任务中,准确率提高了0.67个百分点。同时,水印检测的AUC提高了0.34%,并且对各种攻击具有更强的鲁棒性。重要的是,这些提升是在几乎不增加延迟的情况下实现的。

🎯 应用场景

ReasonMark可应用于各种需要可追溯性和可信度的推理大语言模型应用场景,例如金融分析、法律咨询、医疗诊断等。通过嵌入水印,可以验证模型生成内容的来源,防止恶意篡改或伪造,提高模型的可信度。此外,该方法还可以用于检测模型是否被用于生成有害或不当内容,从而实现对模型的有效监管。

📄 摘要(原文)

Reasoning Large Language Models (RLLMs) excelling in complex tasks present unique challenges for digital watermarking, as existing methods often disrupt logical coherence or incur high computational costs. Token-based watermarking techniques can corrupt the reasoning flow by applying pseudo-random biases, while semantic-aware approaches improve quality but introduce significant latency or require auxiliary models. This paper introduces ReasonMark, a novel watermarking framework specifically designed for reasoning-intensive LLMs. Our approach decouples generation into an undisturbed Thinking Phase and a watermarked Answering Phase. We propose a Criticality Score to identify semantically pivotal tokens from the reasoning trace, which are distilled into a Principal Semantic Vector (PSV). The PSV then guides a semantically-adaptive mechanism that modulates watermark strength based on token-PSV alignment, ensuring robustness without compromising logical integrity. Extensive experiments show ReasonMark surpasses state-of-the-art methods by reducing text Perplexity by 0.35, increasing translation BLEU score by 0.164, and raising mathematical accuracy by 0.67 points. These advancements are achieved alongside a 0.34% higher watermark detection AUC and stronger robustness to attacks, all with a negligible increase in latency. This work enables the traceable and trustworthy deployment of reasoning LLMs in real-world applications.