Now You (Still) See Me: Detecting Evasive Steganographic Payloads in LLMs

📄 arXiv: 2606.09411v1 📥 PDF

作者: Charles Westphal, Timothy Douglas, Keivan Navaie, Tiago Pimentel, Fernando E. Rosas

分类: cs.CR, cs.IT, cs.LG

发布日期: 2026-06-08


💡 一句话要点

提出针对LLM隐蔽信息提取的检测方法以应对现有防御不足

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 隐写检测 大型语言模型 对抗性微调 信息安全 数据隐私

📋 核心要点

  1. 现有的隐写检测方法在面对对抗性微调时表现出脆弱性,难以有效识别隐蔽信息。
  2. 论文提出通过引入非线性多层感知器探针和针对性的数据级干预来增强隐写检测能力。
  3. 实验结果表明,新的方法在保持高秘密恢复率的同时,成功规避了多种探针的检测,展示了理论指导下的评估分布的有效性。

📝 摘要(中文)

大型语言模型可以被微调以将提示中的秘密编码为流畅且看似无害的输出。这带来了难以通过输出级别隐写分析检测的隐蔽信息外泄风险。本文展示了现有基于激活的检测方法的脆弱性,并通过针对性的数据级干预恢复了可检测性。我们扩展了检测设置,引入非线性多层感知器探针,并对五个基础模型进行了对抗性微调。结果显示,模型在保持58%至79%的精确匹配秘密恢复率的同时,成功规避了多种探针,且在六个基准测试中平均能力下降1%至8%。

🔬 方法详解

问题定义:本文旨在解决大型语言模型中隐蔽信息提取的检测问题,现有方法在面对对抗性微调时表现出脆弱性,难以有效识别隐蔽信息。

核心思路:论文的核心思路是通过引入非线性多层感知器探针和针对性的数据级干预来增强隐写检测能力,从而提高对抗性微调模型的可检测性。

技术框架:整体架构包括对五个基础模型进行对抗性微调,使用非线性探针进行检测,并通过设计特定的数据集来限制残余自由度,从而提高检测能力。

关键创新:最重要的技术创新点在于引入非线性多层感知器探针和重新构建数据集,以恢复对隐蔽信息的检测能力,这与现有的线性探针方法形成了本质区别。

关键设计:在实验中,模型的参数设置和损失函数经过精心设计,以确保在对抗性微调过程中保持高的秘密恢复率,同时降低低阶可提取性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,经过对抗性微调的模型在保持58%至79%的秘密恢复率的同时,成功规避了多种探针的检测,且在六个基准测试中平均能力下降仅为1%至8%。这一结果表明,新的检测方法在面对对抗性攻击时具有显著的优势。

🎯 应用场景

该研究的潜在应用领域包括网络安全、数据隐私保护和信息安全等。通过提高对隐蔽信息提取的检测能力,可以有效防止敏感信息的泄露,增强大型语言模型在实际应用中的安全性和可靠性。未来,该方法可能会推动隐写检测技术的进一步发展,促进相关领域的研究与应用。

📄 摘要(原文)

Large language models can be fine-tuned to encode prompt-borne secrets into fluent, seemingly benign outputs. This creates a steganographic exfiltration risk that is difficult to detect with output-level steganalysis. Recent work proposes mechanistic detection using linear probes that recover the secret from internal activations. We show that this defense can be systematically evaded, but that detectability can be recovered through a targeted data-level intervention. First, we extend the detection setup to include a non-linear MLP probe. We then adversarially fine-tune steganographic trojans across five base models: Qwen3-8B, Llama-3.1-8B, Ministral-8B, Qwen3-14B, and Phi-4-14B. The resulting models retain $58$--$79\%$ exact-match secret recovery while evading both ridge and held-out MLP probes, with $1$--$8\%$ average capability degradation across six benchmarks. We then give an information-theoretic characterization of this evasion. Successful evasion preserves recoverability while reducing low-order extractability of the secret from the content-aligned representation, forcing the payload into synergistic interaction with residual degrees of freedom. This motivates a recontextualization dataset that restricts these residual degrees of freedom. On this distribution, both ridge and MLP detectability are restored across all five evasive trojans. Overall, our findings show that activation-based steganography detection is vulnerable to adaptive evasion, but also that theory-guided evaluation distributions can expose otherwise hidden payloads.