BanglaLorica: Design and Evaluation of a Robust Watermarking Algorithm for Large Language Models in Bangla Text Generation

📄 arXiv: 2601.04534v1 📥 PDF

作者: Amit Bin Tariqul, A N M Zahid Hossain Milkan, Sahab-Al-Chowdhury, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan

分类: cs.CL, cs.AI

发布日期: 2026-01-08

备注: Under review, 12 pages, 7 figures, 5 tables


💡 一句话要点

BanglaLorica:提出针对孟加拉语LLM的鲁棒分层水印算法,提升跨语言攻击下的水印检测精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本水印 大型语言模型 低资源语言 孟加拉语 跨语言攻击 分层水印 鲁棒性 知识产权保护

📋 核心要点

  1. 现有文本水印方法在低资源语言中,面对跨语言往返翻译攻击时鲁棒性不足,导致水印检测精度大幅下降。
  2. 提出一种分层水印策略,结合嵌入时水印和生成后水印,以提高在跨语言攻击下的水印检测鲁棒性。
  3. 实验表明,分层水印策略显著提升了跨语言往返翻译攻击后的水印检测精度,相对单层水印方法提升了3-4倍。

📝 摘要(中文)

随着大型语言模型(LLM)越来越多地用于文本生成,水印技术对于作者身份归属、知识产权保护和滥用检测至关重要。虽然现有的水印方法在高资源语言中表现良好,但它们在低资源语言中的鲁棒性仍未得到充分研究。本文首次系统地评估了最先进的文本水印方法:KGW、指数采样(EXP)和Waterfall,在跨语言往返翻译(RTT)攻击下对孟加拉语LLM文本生成的水印效果。在良性条件下,KGW和EXP实现了高检测精度(>88%),且对困惑度和ROUGE的影响可忽略不计。然而,RTT导致检测精度崩溃至9-13%,表明token级别水印的根本失效。为了解决这个问题,我们提出了一种分层水印策略,结合了嵌入时水印和生成后水印。实验结果表明,分层水印将RTT后的检测精度提高了25-35%,达到40-50%的精度,相对于单层方法提高了3到4倍,但代价是可控的语义降级。我们的研究结果量化了多语言水印中的鲁棒性-质量权衡,并将分层水印确立为孟加拉语等低资源语言的一种实用的、无需训练的解决方案。我们的代码和数据将公开。

🔬 方法详解

问题定义:论文旨在解决低资源语言(如孟加拉语)的大型语言模型在文本生成过程中,现有水印方法在面对跨语言往返翻译(RTT)攻击时鲁棒性不足的问题。现有token级别的水印方法在RTT攻击下,检测精度会大幅下降,无法有效进行作者身份验证和版权保护。

核心思路:论文的核心思路是采用分层水印策略,结合嵌入时水印和生成后水印。嵌入时水印在模型生成文本时嵌入,生成后水印在文本生成后进行修改。通过结合两种水印,提高水印的鲁棒性,使其能够抵抗RTT攻击。

技术框架:该方法主要包含以下几个阶段:1) 使用大型语言模型生成孟加拉语文本;2) 应用嵌入时水印(如KGW或EXP);3) 应用生成后水印;4) 进行跨语言往返翻译攻击;5) 检测水印并评估检测精度。整体框架无需重新训练模型,属于一种后处理方法。

关键创新:该方法最重要的创新点在于提出了分层水印策略,将嵌入时水印和生成后水印相结合。这种策略能够有效提高水印的鲁棒性,使其能够抵抗跨语言往返翻译攻击。与传统的单层水印方法相比,分层水印在RTT攻击下具有更高的检测精度。

关键设计:嵌入时水印可以使用现有的KGW或EXP方法,生成后水印的具体实现方式未知,但需要考虑对语义的影响。论文通过实验评估了不同水印策略的鲁棒性和质量之间的权衡,并选择合适的参数设置以达到最佳效果。具体参数设置细节在论文中应该有更详细的描述,此处未知。

📊 实验亮点

实验结果表明,在良性条件下,KGW和EXP水印方法在孟加拉语LLM文本生成中实现了超过88%的检测精度,且对困惑度和ROUGE的影响可忽略不计。然而,在跨语言往返翻译(RTT)攻击下,单层水印方法的检测精度崩溃至9-13%。通过采用分层水印策略,RTT后的检测精度提高了25-35%,达到40-50%的精度,相对于单层方法提高了3到4倍。

🎯 应用场景

该研究成果可应用于低资源语言的大型语言模型文本生成领域,用于保护知识产权、进行作者身份验证和防止滥用。分层水印策略可以有效提高水印的鲁棒性,使其能够抵抗跨语言攻击,从而更好地保护低资源语言的内容创作者的权益。未来,该方法可以推广到其他低资源语言,并与其他安全技术相结合,构建更完善的LLM安全体系。

📄 摘要(原文)

As large language models (LLMs) are increasingly deployed for text generation, watermarking has become essential for authorship attribution, intellectual property protection, and misuse detection. While existing watermarking methods perform well in high-resource languages, their robustness in low-resource languages remains underexplored. This work presents the first systematic evaluation of state-of-the-art text watermarking methods: KGW, Exponential Sampling (EXP), and Waterfall, for Bangla LLM text generation under cross-lingual round-trip translation (RTT) attacks. Under benign conditions, KGW and EXP achieve high detection accuracy (>88%) with negligible perplexity and ROUGE degradation. However, RTT causes detection accuracy to collapse below RTT causes detection accuracy to collapse to 9-13%, indicating a fundamental failure of token-level watermarking. To address this, we propose a layered watermarking strategy that combines embedding-time and post-generation watermarks. Experimental results show that layered watermarking improves post-RTT detection accuracy by 25-35%, achieving 40-50% accuracy, representing a 3$\times$ to 4$\times$ relative improvement over single-layer methods, at the cost of controlled semantic degradation. Our findings quantify the robustness-quality trade-off in multilingual watermarking and establish layered watermarking as a practical, training-free solution for low-resource languages such as Bangla. Our code and data will be made public.