Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

📄 arXiv: 2603.08104v1 📥 PDF

作者: Guangnian Wan, Xinyin Ma, Gongfan Fang, Xinchao Wang

分类: cs.LG

发布日期: 2026-03-09


💡 一句话要点

提出一种基于隐写术的恶意微调方法,使LLM在表面安全下秘密生成有害内容。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全对齐 恶意微调 隐写术 内容安全

📋 核心要点

  1. 现有LLM安全对齐方法难以检测模型表面行为下的恶意内容生成,存在隐蔽的安全风险。
  2. 通过微调LLM使其掌握隐写术,将恶意问题和答案隐藏在良性文本中,实现隐蔽的恶意内容传递。
  3. 实验证明该方法可绕过GPT-4.1的安全防护,并在多个开源模型上成功复现,表明其通用性。

📝 摘要(中文)

本文揭示了一种潜在的安全风险:受损的大语言模型(LLM)可能在维持表面安全对齐的同时,秘密地生成有害内容。为了实现这一点,我们对模型进行微调,使其能够理解和应用隐写术。在推理时,我们输入一个提示,其中包含一个隐写嵌入的恶意目标问题以及一个明文的掩盖问题。模型进而产生一个目标响应,该响应同样被隐写嵌入在一个看似良性的掩盖响应中。在这个过程中,人类观察者只会看到模型被提示了一个掩盖问题,并生成了相应的掩盖响应,而恶意内容则被隐藏起来。我们展示了GPT-4.1上的这种隐形安全威胁,尽管OpenAI微调API具有安全保障。微调后的模型会产生隐写恶意输出,以响应隐藏的恶意提示,而用户界面仅显示完全良性的掩盖交互。我们还在三个开源模型Llama-3.3-70B-Instruct、Phi-4和Mistral-Small-24B-Base-2501上复制了该攻击,证实了我们方法的通用性。我们使用Llama-Guard-3-8B进行内容安全分类,在AdvBench数据集上定量评估了我们的方法。在所有四个模型中,所有包含恶意内容的隐写文本都被错误地分类为安全。

🔬 方法详解

问题定义:论文旨在解决LLM在安全对齐后仍然可能存在的隐蔽恶意行为问题。现有方法主要关注显式的安全问题,难以检测和防御模型通过隐写术等手段隐藏的恶意内容生成,这使得LLM在表面上看起来安全,但实际上可能被用于传播有害信息。

核心思路:论文的核心思路是利用隐写术,将恶意问题和答案嵌入到看似无害的文本中。通过微调LLM,使其能够理解和生成包含隐写信息的文本,从而在用户不知情的情况下,诱导模型生成恶意内容。这种方法的核心在于隐藏恶意意图,绕过现有的安全检测机制。

技术框架:该方法主要包含以下几个阶段:1) 隐写术选择:选择一种合适的隐写术,用于将恶意问题和答案嵌入到掩盖文本中。2) 数据准备:准备包含恶意问题和答案的数据集,并使用隐写术将其嵌入到相应的掩盖问题和答案中。3) 模型微调:使用准备好的数据集对LLM进行微调,使其能够理解和生成包含隐写信息的文本。4) 推理阶段:在推理时,向模型输入包含隐写信息的提示,模型生成包含隐写信息的响应,用户只能看到表面上的掩盖文本,而恶意内容则被隐藏起来。

关键创新:该方法最重要的技术创新点在于将隐写术与LLM微调相结合,实现了一种隐蔽的恶意内容生成方式。与传统的安全攻击方法不同,该方法不是直接攻击模型的安全机制,而是通过隐藏恶意意图来绕过安全检测,从而实现更隐蔽的攻击效果。

关键设计:论文的关键设计包括:1) 隐写术的选择:选择一种鲁棒性较好的隐写术,以确保恶意信息在传输过程中不易被检测到。2) 微调数据集的设计:设计包含多样化掩盖文本的微调数据集,以提高模型的泛化能力。3) 损失函数的设计:可以使用交叉熵损失函数来训练模型,使其能够准确地生成包含隐写信息的文本。具体的参数设置和网络结构取决于所使用的LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法可以成功绕过GPT-4.1的安全防护,并在Llama-3.3-70B-Instruct、Phi-4和Mistral-Small-24B-Base-2501等多个开源模型上成功复现。在AdvBench数据集上的评估结果显示,使用Llama-Guard-3-8B进行内容安全分类时,所有包含恶意内容的隐写文本都被错误地分类为安全,表明该方法具有很强的隐蔽性。

🎯 应用场景

该研究揭示了LLM安全领域的一个重要隐患,可用于指导LLM安全防护策略的制定,例如开发更强大的隐写分析技术,以及设计更有效的安全对齐方法。此外,该研究也提醒开发者在部署LLM时,需要考虑更全面的安全风险,防止模型被恶意利用。

📄 摘要(原文)

Understanding and addressing potential safety alignment risks in large language models (LLMs) is critical for ensuring their safe and trustworthy deployment. In this paper, we highlight an insidious safety threat: a compromised LLM can maintain a facade of proper safety alignment while covertly generating harmful content. To achieve this, we finetune the model to understand and apply a steganographic technique. At inference time, we input a prompt that contains a steganographically embedded malicious target question along with a plaintext cover question. The model, in turn, produces a target response similarly embedded within a benign-looking cover response. In this process, human observers only see the model being prompted with a cover question and generating a corresponding cover response, while the malicious content is hidden from view. We demonstrate this invisible safety threat on GPT-4.1 despite the OpenAI finetuning API's safeguards. The finetuned model produces steganographic malicious outputs in response to hidden malicious prompts, while the user interface displays only a fully benign cover interaction. We also replicate the attack on three open-source models, Llama-3.3-70B-Instruct, Phi-4, and Mistral-Small-24B-Base-2501, confirming the generality of our method. We quantitatively evaluate our method on the AdvBench dataset, using Llama-Guard-3-8B for content safety classification. Across all four models, all stegotexts containing malicious content are incorrectly classified as safe.