Is Multilingual LLM Watermarking Truly Multilingual? A Simple Back-Translation Solution
作者: Asim Mohamed, Martin Gubri
分类: cs.CL, cs.AI
发布日期: 2025-10-20
💡 一句话要点
提出基于回译的STEAM方法,提升多语言LLM水印在低资源语言下的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言水印 大型语言模型 回译 低资源语言 鲁棒性 水印检测 跨语言 内容溯源
📋 核心要点
- 现有跨语言水印方法在低资源语言上,经过翻译攻击后鲁棒性显著下降,无法有效追踪LLM生成内容。
- 提出STEAM方法,利用回译技术恢复翻译过程中损失的水印信息,增强水印检测的准确性。
- 实验表明,STEAM在17种语言上显著提升水印检测性能,平均AUC提升0.19,TPR@1%提升40%p。
📝 摘要(中文)
多语言水印旨在使大型语言模型(LLM)的输出在不同语言之间具有可追溯性,但目前的方法仍然存在不足。尽管声称具有跨语言鲁棒性,但它们仅在高资源语言上进行评估。我们表明,现有的多语言水印方法并非真正多语言的:它们在中小资源语言的翻译攻击下无法保持鲁棒性。我们将此失败归因于语义聚类,当给定语言的tokenizer词汇表包含的完整单词token太少时,语义聚类会失败。为了解决这个问题,我们引入了STEAM,一种基于回译的检测方法,可以恢复因翻译而损失的水印强度。STEAM与任何水印方法兼容,在不同的tokenizer和语言中都具有鲁棒性,非侵入性,并且易于扩展到新的语言。在17种语言上,STEAM的平均AUC增益为+0.19,TPR@1%增益为+40%p,为在不同语言之间实现更公平的水印提供了一条简单而稳健的途径。
🔬 方法详解
问题定义:现有的多语言水印方法在跨语言场景下,尤其是在低资源语言中,面临着鲁棒性不足的问题。当LLM生成的文本经过翻译后,原始水印的强度会显著降低,导致水印检测的准确率下降。现有方法主要在高资源语言上进行评估,忽略了低资源语言的挑战,使得其在实际应用中受到限制。核心问题在于tokenizer在处理不同语言时,对语义的聚类效果存在差异,导致水印信息在翻译过程中丢失。
核心思路:STEAM的核心思路是利用回译技术来恢复在翻译过程中损失的水印信息。通过将翻译后的文本回译成原始语言,可以尽可能地还原原始文本的语义和结构,从而增强水印的强度,提高水印检测的准确率。这种方法不依赖于特定的水印算法,可以与现有的水印方法相结合,具有很强的通用性。
技术框架:STEAM方法主要包含以下几个阶段:1) 使用现有的多语言水印方法对原始文本进行水印嵌入;2) 将水印文本翻译成目标语言;3) 使用机器翻译模型将目标语言文本回译成原始语言;4) 使用水印检测器检测回译后的文本中是否存在水印。整个流程的关键在于回译过程,其目的是尽可能地还原原始文本的语义信息,从而提高水印检测的准确率。
关键创新:STEAM的关键创新在于利用回译技术来解决多语言水印在低资源语言中鲁棒性不足的问题。与现有方法相比,STEAM不依赖于特定的水印算法,可以与现有的水印方法相结合,具有很强的通用性。此外,STEAM方法不需要对LLM进行额外的训练或修改,是一种非侵入性的方法,易于部署和应用。
关键设计:STEAM方法的关键设计在于回译模型的选择和回译策略的优化。论文中可能使用了高质量的机器翻译模型来进行回译,并可能采用了一些策略来优化回译效果,例如使用不同的解码策略、对回译结果进行后处理等。具体的参数设置和损失函数取决于所使用的回译模型和水印检测器。
🖼️ 关键图片
📊 实验亮点
实验结果表明,STEAM方法在17种语言上显著提升了水印检测的性能。与现有方法相比,STEAM的平均AUC增益为+0.19,TPR@1%增益为+40%p。这些结果表明,STEAM方法可以有效地恢复在翻译过程中损失的水印信息,提高水印检测的准确率,尤其是在低资源语言中。
🎯 应用场景
该研究成果可应用于版权保护、内容溯源、防止恶意信息传播等领域。通过为LLM生成的内容添加水印,可以追踪内容的来源和传播路径,从而更好地管理和控制LLM生成的内容。尤其是在多语言环境下,该方法可以有效地防止恶意用户利用翻译手段来逃避水印检测,具有重要的实际应用价值。
📄 摘要(原文)
Multilingual watermarking aims to make large language model (LLM) outputs traceable across languages, yet current methods still fall short. Despite claims of cross-lingual robustness, they are evaluated only on high-resource languages. We show that existing multilingual watermarking methods are not truly multilingual: they fail to remain robust under translation attacks in medium- and low-resource languages. We trace this failure to semantic clustering, which fails when the tokenizer vocabulary contains too few full-word tokens for a given language. To address this, we introduce STEAM, a back-translation-based detection method that restores watermark strength lost through translation. STEAM is compatible with any watermarking method, robust across different tokenizers and languages, non-invasive, and easily extendable to new languages. With average gains of +0.19 AUC and +40%p TPR@1% on 17 languages, STEAM provides a simple and robust path toward fairer watermarking across diverse languages.