Text Steganography with Dynamic Codebook and Multimodal Large Language Model

作者: Jianxin Gao, Ruohan Lei, Wanli Peng

分类: cs.CR, cs.AI

发布日期: 2026-04-22

💡 一句话要点

提出基于动态码本和多模态大语言模型的文本隐写术，提升安全性和实用性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本隐写术 多模态大语言模型 动态码本 黑盒攻击 信息安全

📋 核心要点

现有文本隐写术在白盒场景易暴露，黑盒场景码本固定，缺乏灵活性和实用性。
提出一种黑盒文本隐写术，利用动态码本和多模态大语言模型提升安全性和实用性。
实验表明，该方法在嵌入容量和文本质量上优于白盒方法，实用性和灵活性优于黑盒方法。

📝 摘要（中文）

随着大型语言模型（LLMs）的普及，文本隐写术取得了显著的进展。然而，现有方法仍然存在一些问题：（1）对于白盒范式，由于Alice和Bob之间共享现成的语言模型，这种隐写行为容易暴露。（2）对于黑盒范式，这些方法缺乏灵活性和实用性，因为Alice和Bob应该共享固定的码本，同时为每个隐写语句共享一个特定的提取提示。为了提高安全性和实用性，我们提出了一种基于动态码本和多模态大型语言模型的黑盒文本隐写术。具体来说，我们首先通过一些共享的会话配置和一个多模态大型语言模型构建一个动态码本。然后，设计了一种加密的隐写映射，以便在隐写字幕生成过程中嵌入秘密消息。此外，我们引入了一种基于拒绝采样的反馈优化机制，以确保秘密消息的准确提取。实验结果表明，该方法在嵌入容量和文本质量方面优于现有的白盒文本隐写方法。同时，该方法在一些流行的在线社交网络中比现有的黑盒范式具有更好的实用性和灵活性。

🔬 方法详解

问题定义：现有文本隐写术，尤其是白盒方法，容易因共享语言模型而暴露隐写行为。黑盒方法虽然安全性较高，但依赖固定的码本和提取提示，限制了其在实际场景中的应用，缺乏灵活性和实用性。因此，需要一种更安全、更灵活的文本隐写方案。

核心思路：本论文的核心思路是利用多模态大语言模型（MLLM）生成动态码本，并结合加密的隐写映射，在黑盒场景下实现安全且灵活的文本隐写。动态码本的引入避免了固定码本带来的安全隐患，而多模态大语言模型则提供了更丰富的语义信息，提升了隐写的容量和质量。

技术框架：该方法主要包含以下几个阶段：1) 通过共享的会话配置和多模态大语言模型构建动态码本；2) 设计加密的隐写映射，将秘密消息嵌入到隐写字幕的生成过程中；3) 利用基于拒绝采样的反馈优化机制，确保秘密消息的准确提取。整体流程旨在实现安全、灵活且高效的文本隐写。

关键创新：该方法最重要的技术创新点在于动态码本的构建和使用。与传统的固定码本方法不同，动态码本能够根据会话配置和多模态大语言模型的变化而变化，从而提高了隐写术的安全性，降低了被检测到的风险。此外，结合多模态信息也提升了隐写容量和文本质量。

关键设计：动态码本的构建依赖于多模态大语言模型，具体的实现细节（如模型的选择、训练方式等）未知。加密的隐写映射的具体加密算法未知，但其目的是将秘密消息安全地嵌入到生成的文本中。反馈优化机制采用拒绝采样，通过多次采样和筛选，确保提取的秘密消息的准确性。具体的采样策略和筛选标准未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在嵌入容量和文本质量方面优于现有的白盒文本隐写方法。同时，与现有的黑盒范式相比，该方法在一些流行的在线社交网络中表现出更好的实用性和灵活性。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于安全通信、信息隐藏、版权保护等领域。例如，在社交网络中，用户可以使用该方法在发布的图片描述中隐藏重要信息，从而避免被恶意用户或平台审查。此外，该方法还可以用于数字水印，保护数字内容的版权。

📄 摘要（原文）

With the popularity of the large language models (LLMs), text steganography has achieved remarkable performance. However, existing methods still have some issues: (1) For the white-box paradigm, this steganography behavior is prone to exposure due to sharing the off-the-shelf language model between Alice and Bob.(2) For the black-box paradigm, these methods lack flexibility and practicality since Alice and Bob should share the fixed codebook while sharing a specific extracting prompt for each steganographic sentence. In order to improve the security and practicality, we introduce a black-box text steganography with a dynamic codebook and multimodal large language model. Specifically, we first construct a dynamic codebook via some shared session configuration and a multimodal large language model. Then an encrypted steganographic mapping is designed to embed secret messages during the steganographic caption generation. Furthermore, we introduce a feedback optimization mechanism based on reject sampling to ensure accurate extraction of secret messages. Experimental results show that the proposed method outperforms existing white-box text steganography methods in terms of embedding capacity and text quality. Meanwhile, the proposed method has achieved better practicality and flexibility than the existing black-box paradigm in some popular online social networks.

Text Steganography with Dynamic Codebook and Multimodal Large Language Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理