TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent

📄 arXiv: 2505.20118v4 📥 PDF

作者: Dominik Meier, Jan Philip Wahle, Paul Röttger, Terry Ruas, Bela Gipp

分类: cs.CL, cs.CR

发布日期: 2025-05-26 (更新: 2026-01-07)

备注: 9 pages, 5 figures To be presented in the Conference on Empirical Methods in Natural Language Processing, 2025

DOI: 10.18653/v1/2025.emnlp-main.1386


💡 一句话要点

TrojanStego:提出一种基于语言模型隐写术的隐私泄露攻击方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 隐写术 隐私泄露 威胁模型 数据渗漏

📋 核心要点

  1. 大型语言模型在处理敏感信息时存在隐私泄露风险,攻击者可能利用模型传递机密数据。
  2. TrojanStego通过微调LLM,使其能够利用语言隐写术在生成文本中嵌入秘密信息,实现隐蔽的数据泄露。
  3. 实验表明,该方法能够以高准确率传输秘密信息,同时保持文本的实用性和连贯性,难以被人类检测。

📝 摘要(中文)

随着大型语言模型(LLMs)被集成到敏感工作流程中,人们越来越担心它们可能泄露机密信息。我们提出了TrojanStego,这是一种新的威胁模型,其中攻击者微调LLM,通过语言隐写术将敏感上下文信息嵌入到看似自然的输出中,而无需显式控制推理输入。我们提出了一个分类法,概述了受损LLM的风险因素,并用它来评估该威胁的风险概况。为了实现TrojanStego,我们提出了一种基于词汇分割的实用编码方案,LLM可以通过微调学习该方案。实验结果表明,受损模型在保留的提示上可靠地传输32位密钥,准确率达到87%,使用跨三个世代的多数投票时,准确率超过97%。此外,它们保持了高实用性,可以逃避人类检测,并保持连贯性。这些结果突出了一种新型的LLM数据渗漏攻击,它是被动的、隐蔽的、实用的和危险的。

🔬 方法详解

问题定义:现有的大型语言模型在处理敏感工作流程时,存在潜在的隐私泄露风险。传统的攻击方式通常需要直接控制模型的输入,而该论文关注的是一种更为隐蔽的攻击方式,即通过在模型生成的文本中嵌入秘密信息来泄露数据。现有方法难以检测这种隐写术攻击,因为嵌入的信息隐藏在自然语言中。

核心思路:该论文的核心思路是利用语言模型的生成能力,通过微调模型使其掌握一种隐写术,即能够将秘密信息编码到生成的文本中,而不影响文本的自然性和可读性。这种方法不需要攻击者直接控制输入,而是通过控制模型的输出来实现数据泄露。

技术框架:TrojanStego攻击框架主要包含以下几个阶段:1) 威胁建模,定义了受损LLM的风险因素分类;2) 编码方案设计,提出了一种基于词汇分割的编码方法,将词汇表划分为不同的子集,每个子集代表不同的信息;3) 模型微调,通过微调LLM,使其学习如何使用这些词汇子集来编码秘密信息;4) 评估,评估攻击的有效性、隐蔽性和对模型实用性的影响。

关键创新:该论文的关键创新在于提出了一种新的威胁模型,即TrojanStego,它利用语言模型的隐写能力进行数据泄露。与传统的攻击方式相比,TrojanStego更加隐蔽和难以检测。此外,该论文还提出了一种基于词汇分割的实用编码方案,使得LLM可以通过微调学习隐写术。

关键设计:编码方案的关键设计在于词汇表的划分。论文将词汇表划分为多个互斥的子集,每个子集代表不同的比特值。在生成文本时,模型会根据要编码的秘密信息,选择相应的词汇子集中的词语。微调过程中,使用交叉熵损失函数来训练模型,使其能够准确地将秘密信息编码到生成的文本中。实验中,使用32位密钥进行编码,并采用多数投票的方式提高解码的准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过TrojanStego攻击微调的LLM能够以87%的准确率在生成的文本中嵌入32位密钥,并且通过多数投票机制可以将准确率提升到97%以上。同时,生成的文本保持了较高的实用性和连贯性,难以被人类检测,证明了该攻击的有效性和隐蔽性。

🎯 应用场景

TrojanStego的研究成果可应用于评估和防御大型语言模型的隐私风险。该方法揭示了LLM在处理敏感信息时可能存在的隐蔽数据泄露途径,有助于开发更安全的模型训练和部署策略。此外,该研究也为隐写术在自然语言处理领域的应用提供了新的思路。

📄 摘要(原文)

As large language models (LLMs) become integrated into sensitive workflows, concerns grow over their potential to leak confidential information. We propose TrojanStego, a novel threat model in which an adversary fine-tunes an LLM to embed sensitive context information into natural-looking outputs via linguistic steganography, without requiring explicit control over inference inputs. We introduce a taxonomy outlining risk factors for compromised LLMs, and use it to evaluate the risk profile of the threat. To implement TrojanStego, we propose a practical encoding scheme based on vocabulary partitioning learnable by LLMs via fine-tuning. Experimental results show that compromised models reliably transmit 32-bit secrets with 87% accuracy on held-out prompts, reaching over 97% accuracy using majority voting across three generations. Further, they maintain high utility, can evade human detection, and preserve coherence. These results highlight a new class of LLM data exfiltration attacks that are passive, covert, practical, and dangerous.