OD-Stega: LLM-Based Near-Imperceptible Steganography via Optimized Distributions
作者: Yu-Shin Huang, Peter Just, Krishna Narayanan, Chao Tian
分类: cs.IT, cs.AI, cs.CL, cs.CR, cs.LG
发布日期: 2024-10-06
备注: 9 figures
💡 一句话要点
提出OD-Stega:一种基于LLM和优化分布的近乎不可察觉的隐写术
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐写术 大型语言模型 算术编码 优化分布 KL散度 信息安全 无载体隐写
📋 核心要点
- 现有隐写术在嵌入秘密信息时,难以兼顾隐蔽性和效率,需要更高效地利用语言模型。
- OD-Stega通过优化token替换概率分布,在KL散度约束下最大化熵,实现高效信息嵌入。
- 该方法解决了token化不匹配问题,并结合词汇截断和序列级启发式方法,提升了性能。
📝 摘要(中文)
本文研究了无载体隐写术,其中大型语言模型(LLM)驱动算术编码解码器生成隐写文本。一种高效的方法应该在尽可能少的语言token中嵌入秘密消息位,同时保持隐写文本的自然和流畅。我们证明,在单个token级别,这个问题在数学上等同于最大化下一个token生成的替换概率分布的熵,约束条件是所选概率分布与LLM给出的原始分布之间的KL散度。为该优化问题提供了一个闭式解,可以有效地计算。此外,还解决了几个重要的实际问题:1) 通过简单的提示选择方法解决了经常被忽视的token化不匹配问题;2) 考虑了优化分布与词汇截断技术的结合;3) 研究了优化分布与其他序列级选择启发式方法的结合,以进一步提高效率和可靠性。
🔬 方法详解
问题定义:论文旨在解决无载体隐写术中,如何高效且隐蔽地将秘密信息嵌入到由大型语言模型生成的文本中的问题。现有方法通常难以在嵌入容量、隐蔽性和文本流畅性之间取得平衡,尤其是在token化不匹配的情况下,嵌入效率会显著降低。
核心思路:论文的核心思路是,通过优化每个token的替换概率分布,在保证生成文本与原始LLM分布尽可能接近(通过KL散度约束)的前提下,最大化替换概率分布的熵。这意味着在不显著改变文本自然度的前提下,尽可能地增加每个token能够携带的信息量。
技术框架:OD-Stega的整体框架包括以下几个主要步骤:1) 使用LLM生成初始文本;2) 对于每个token,计算其替换概率分布,该分布通过求解一个优化问题得到,目标是最大化熵,约束是与原始LLM分布的KL散度;3) 使用算术编码器,根据优化后的概率分布,将秘密信息嵌入到文本中;4) 通过提示选择解决token化不匹配问题,并结合词汇截断和序列级启发式方法进一步优化。
关键创新:该论文的关键创新在于提出了基于优化分布的隐写方法。与传统方法直接修改LLM的输出或使用固定的替换规则不同,OD-Stega通过数学优化来确定每个token的最佳替换概率分布,从而在隐蔽性和效率之间取得更好的平衡。此外,对token化不匹配问题的解决以及与其他优化技术的结合也是重要的创新点。
关键设计:论文的关键设计包括:1) 使用KL散度作为约束,保证隐写文本与原始LLM生成文本的相似度;2) 提出了优化问题的闭式解,使得可以高效地计算替换概率分布;3) 采用提示选择策略来解决token化不匹配问题;4) 结合词汇截断技术,减少搜索空间,提高效率;5) 研究了与其他序列级选择启发式方法的结合,进一步提升性能。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了OD-Stega的有效性。结果表明,该方法能够在保证文本流畅性和自然度的前提下,实现较高的嵌入容量。此外,通过解决token化不匹配问题和结合其他优化技术,OD-Stega在效率和可靠性方面也取得了显著提升,相较于传统方法具有明显的优势。
🎯 应用场景
OD-Stega可应用于安全通信、数字水印、版权保护等领域。它允许在文本中嵌入秘密信息,且不易被察觉,从而保护信息的机密性和完整性。该技术在信息安全领域具有重要的应用价值,并可能推动更高级的隐写术和安全通信技术的发展。
📄 摘要(原文)
We consider coverless steganography where a Large Language Model (LLM) drives an arithmetic coding decoder to generate stego-texts. An efficient method should embed secret message bits in as few language tokens as possible, while still keeping the stego-text natural and fluent. We show that on the individual token level, this problem is mathematically equivalent to maximizing the entropy of a replacement probability distribution of the next token generation, subject to a constraint on the KL divergence between the chosen probability distribution and the original distribution given by the LLM. A closed-form solution is provided for the optimization problem, which can be computed efficiently. Several important practical issues are also tackled: 1) An often-overlooked tokenization mismatch issue is resolved with a simple prompt selection approach, 2) The combination of the optimized distribution and the vocabulary truncation technique is considered, and 3) The combination of the optimized distribution with other sequence-level selection heuristics to further enhance the efficiency and reliability is studied.