Large Language Models as Carriers of Hidden Messages

📄 arXiv: 2406.02481v5 📥 PDF

作者: Jakub Hoscilowicz, Pawel Popiolek, Jan Rudkowski, Jedrzej Bieniasz, Artur Janicki

分类: cs.CL, cs.CR

发布日期: 2024-06-04 (更新: 2025-05-05)

备注: Accepted on SECRYPT 2025 Conference. Code is available at https://github.com/j-hoscilowic/zurek-stegano

DOI: 10.5220/0013498800003979


💡 一句话要点

提出UTF攻击与UTFC防御,揭示并缓解大语言模型隐藏信息泄露风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 信息隐藏 隐写术 安全攻击 安全防御

📋 核心要点

  1. 现有通过微调在LLM中嵌入隐藏信息的方法,安全性依赖于大量潜在触发词,但缺乏有效的防御机制。
  2. 提出无条件Token强制(UTF)攻击,通过分析LLM输出解码过程,迭代输入Token以提取隐藏文本。
  3. 提出无条件Token强制混淆(UTFC)防御,在不影响LLM性能的前提下,抵抗已知的隐藏文本提取攻击。

📝 摘要(中文)

本文研究了通过微调将隐藏文本嵌入到大型语言模型(LLM)中的方法,这种方法可用于LLM指纹识别(嵌入唯一标识符以验证许可合规性)和隐写术(通过触发查询揭示隐藏消息)。研究表明,尽管潜在触发器的数量巨大,但通过微调嵌入隐藏文本的方法容易受到攻击,攻击者可以通过分析LLM的输出解码过程来提取隐藏文本。为此,本文提出了一种名为无条件Token强制(UTF)的提取攻击方法,该方法通过迭代地将LLM词汇表中的Token输入模型,以揭示具有高Token概率的序列,从而识别隐藏文本候选。此外,本文还提出了一种名为无条件Token强制混淆(UTFC)的防御范式,该范式使隐藏文本能够抵抗所有已知的提取攻击,且与标准微调相比,不会降低LLM的通用性能。UTFC既有良性应用(改进LLM指纹识别),也有恶意应用(使用LLM创建秘密通信渠道)。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中隐藏文本的提取和防御问题。现有方法通过微调将隐藏信息嵌入LLM,依赖于大量潜在触发词来保证安全性,但缺乏针对性的攻击手段和有效的防御机制,使得嵌入的隐藏信息容易被恶意提取,造成安全隐患。

核心思路:论文的核心思路是,通过分析LLM的输出解码过程,发现隐藏文本在Token概率上的特征,并利用这些特征设计攻击方法。同时,设计一种防御机制,混淆隐藏文本的Token概率,使其难以被提取,从而提高安全性。

技术框架:论文主要包含两个部分:UTF攻击和UTFC防御。UTF攻击通过迭代地将LLM词汇表中的Token输入模型,并分析输出的Token概率,从而识别隐藏文本的候选序列。UTFC防御则通过修改微调过程,使得隐藏文本的Token概率分布更加均匀,从而混淆攻击者的判断。

关键创新:论文的关键创新在于提出了UTF攻击和UTFC防御。UTF攻击是一种新颖的提取隐藏文本的方法,它不依赖于特定的触发词,而是通过分析LLM的输出解码过程来提取隐藏文本。UTFC防御则是一种有效的防御机制,它可以在不影响LLM性能的前提下,抵抗已知的隐藏文本提取攻击。

关键设计:UTF攻击的关键设计在于迭代输入Token并分析输出Token概率的策略。具体来说,攻击者从LLM的词汇表中选择Token,并将其输入到模型中,然后分析模型输出的Token概率分布。如果某个Token序列的概率显著高于其他序列,则该序列很可能是隐藏文本的一部分。UTFC防御的关键设计在于修改微调过程,使得隐藏文本的Token概率分布更加均匀。具体来说,防御者可以在微调过程中引入额外的损失函数,惩罚隐藏文本的Token概率分布的偏差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了UTF攻击,能够有效提取通过微调嵌入LLM的隐藏文本。同时,UTFC防御能够在不显著降低LLM性能的前提下,有效抵抗UTF攻击,显著提升了LLM隐藏信息的安全性。实验结果表明,UTFC防御能够使UTF攻击的成功率大幅降低。

🎯 应用场景

该研究成果可应用于LLM的版权保护和内容溯源,通过嵌入唯一标识符进行LLM指纹识别,验证许可合规性。同时,也可能被用于隐蔽通信,创建秘密通信渠道,因此需要关注其潜在的安全风险,并开发相应的监管措施。

📄 摘要(原文)

Simple fine-tuning can embed hidden text into large language models (LLMs), which is revealed only when triggered by a specific query. Applications include LLM fingerprinting, where a unique identifier is embedded to verify licensing compliance, and steganography, where the LLM carries hidden messages disclosed through a trigger query. Our work demonstrates that embedding hidden text via fine-tuning, although seemingly secure due to the vast number of potential triggers, is vulnerable to extraction through analysis of the LLM's output decoding process. We introduce an extraction attack called Unconditional Token Forcing (UTF), which iteratively feeds tokens from the LLM's vocabulary to reveal sequences with high token probabilities, indicating hidden text candidates. We also present Unconditional Token Forcing Confusion (UTFC), a defense paradigm that makes hidden text resistant to all known extraction attacks without degrading the general performance of LLMs compared to standard fine-tuning. UTFC has both benign (improving LLM fingerprinting) and malign applications (using LLMs to create covert communication channels).