TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent

作者: Dominik Meier, Jan Philip Wahle, Paul Röttger, Terry Ruas, Bela Gipp

分类: cs.CL, cs.CR

发布日期: 2025-05-26 (更新: 2026-01-07)

备注: 9 pages, 5 figures To be presented in the Conference on Empirical Methods in Natural Language Processing, 2025

DOI: 10.18653/v1/2025.emnlp-main.1386

💡 一句话要点

TrojanStego：提出一种基于语言模型隐写术的隐私泄露攻击方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 隐写术 隐私泄露 威胁模型 数据渗漏

📋 核心要点

大型语言模型在处理敏感信息时存在隐私泄露风险，攻击者可能利用模型传递机密数据。
TrojanStego通过微调LLM，使其能够利用语言隐写术在生成文本中嵌入秘密信息，实现隐蔽的数据泄露。
实验表明，该方法能够以高准确率传输秘密信息，同时保持文本的实用性和连贯性，难以被人类检测。

📝 摘要（中文）

随着大型语言模型（LLMs）被集成到敏感工作流程中，人们越来越担心它们可能泄露机密信息。我们提出了TrojanStego，这是一种新的威胁模型，其中攻击者微调LLM，通过语言隐写术将敏感上下文信息嵌入到看似自然的输出中，而无需显式控制推理输入。我们提出了一个分类法，概述了受损LLM的风险因素，并用它来评估该威胁的风险概况。为了实现TrojanStego，我们提出了一种基于词汇分割的实用编码方案，LLM可以通过微调学习该方案。实验结果表明，受损模型在保留的提示上可靠地传输32位密钥，准确率达到87%，使用跨三个世代的多数投票时，准确率超过97%。此外，它们保持了高实用性，可以逃避人类检测，并保持连贯性。这些结果突出了一种新型的LLM数据渗漏攻击，它是被动的、隐蔽的、实用的和危险的。

🔬 方法详解

问题定义：现有的大型语言模型在处理敏感工作流程时，存在潜在的隐私泄露风险。传统的攻击方式通常需要直接控制模型的输入，而该论文关注的是一种更为隐蔽的攻击方式，即通过在模型生成的文本中嵌入秘密信息来泄露数据。现有方法难以检测这种隐写术攻击，因为嵌入的信息隐藏在自然语言中。

核心思路：该论文的核心思路是利用语言模型的生成能力，通过微调模型使其掌握一种隐写术，即能够将秘密信息编码到生成的文本中，而不影响文本的自然性和可读性。这种方法不需要攻击者直接控制输入，而是通过控制模型的输出来实现数据泄露。

技术框架：TrojanStego攻击框架主要包含以下几个阶段：1) 威胁建模，定义了受损LLM的风险因素分类；2) 编码方案设计，提出了一种基于词汇分割的编码方法，将词汇表划分为不同的子集，每个子集代表不同的信息；3) 模型微调，通过微调LLM，使其学习如何使用这些词汇子集来编码秘密信息；4) 评估，评估攻击的有效性、隐蔽性和对模型实用性的影响。

关键创新：该论文的关键创新在于提出了一种新的威胁模型，即TrojanStego，它利用语言模型的隐写能力进行数据泄露。与传统的攻击方式相比，TrojanStego更加隐蔽和难以检测。此外，该论文还提出了一种基于词汇分割的实用编码方案，使得LLM可以通过微调学习隐写术。

关键设计：编码方案的关键设计在于词汇表的划分。论文将词汇表划分为多个互斥的子集，每个子集代表不同的比特值。在生成文本时，模型会根据要编码的秘密信息，选择相应的词汇子集中的词语。微调过程中，使用交叉熵损失函数来训练模型，使其能够准确地将秘密信息编码到生成的文本中。实验中，使用32位密钥进行编码，并采用多数投票的方式提高解码的准确率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，经过TrojanStego攻击微调的LLM能够以87%的准确率在生成的文本中嵌入32位密钥，并且通过多数投票机制可以将准确率提升到97%以上。同时，生成的文本保持了较高的实用性和连贯性，难以被人类检测，证明了该攻击的有效性和隐蔽性。

🎯 应用场景

TrojanStego的研究成果可应用于评估和防御大型语言模型的隐私风险。该方法揭示了LLM在处理敏感信息时可能存在的隐蔽数据泄露途径，有助于开发更安全的模型训练和部署策略。此外，该研究也为隐写术在自然语言处理领域的应用提供了新的思路。

📄 摘要（原文）

As large language models (LLMs) become integrated into sensitive workflows, concerns grow over their potential to leak confidential information. We propose TrojanStego, a novel threat model in which an adversary fine-tunes an LLM to embed sensitive context information into natural-looking outputs via linguistic steganography, without requiring explicit control over inference inputs. We introduce a taxonomy outlining risk factors for compromised LLMs, and use it to evaluate the risk profile of the threat. To implement TrojanStego, we propose a practical encoding scheme based on vocabulary partitioning learnable by LLMs via fine-tuning. Experimental results show that compromised models reliably transmit 32-bit secrets with 87% accuracy on held-out prompts, reaching over 97% accuracy using majority voting across three generations. Further, they maintain high utility, can evade human detection, and preserve coherence. These results highlight a new class of LLM data exfiltration attacks that are passive, covert, practical, and dangerous.

TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理