Cordyceps: Covert Control Attacks on LLMs via Data Poisoning

📄 arXiv: 2605.26595v1 📥 PDF

作者: Zedian Shao, Charles Fleming, Teodora Baluta

分类: cs.CR, cs.AI, cs.LG

发布日期: 2026-05-26


💡 一句话要点

Cordyceps:通过数据投毒对LLM进行隐蔽控制攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据投毒攻击 隐蔽控制 语义关联 后门防御

📋 核心要点

  1. 现有LLM投毒攻击依赖固定触发词,易被检测防御机制所识别和消除。
  2. 提出Cordyceps方法,利用语义关联在LLM中植入隐蔽的信息隐藏方案,实现恶意指令的编码和解码。
  3. 实验表明,该方法在攻击成功率上优于传统方法,并能有效绕过后门防御和提示注入防御。

📝 摘要(中文)

大型语言模型(LLM)通常在未经筛选的文本数据集上进行微调,这使得它们容易受到对抗性投毒攻击。现有的投毒攻击主要依赖于固定的触发短语,而这些短语可以通过异常值检测、干净数据正则化或在线监控等防御手段来消除。本文提出了一种数据投毒方法,该方法通过事实或概念等共享知识与攻击者选择的短语之间的语义关联,可靠且隐蔽地教会LLM一种信息隐藏方案。这种诱导的信息隐藏方案可以编码和解码任意恶意指令,从而揭示了一种新的、微妙的投毒诱导的漏洞:隐蔽控制攻击。我们精确地描述了隐蔽控制攻击,并在5个LLM、3个后门防御和4个提示注入防御上评估了它们。通过少量投毒数据,隐蔽控制攻击在平均攻击成功率方面优于基于启发式的提示注入攻击,相对于干净的微调模型提高了约40%。它们还可以规避基于检测和微调的防御,在后门防御后保持高达93%的攻击成功率,在提示注入防御后保持高达98%的成功率。

🔬 方法详解

问题定义:现有的大语言模型投毒攻击依赖于预先设定的触发词,这些触发词容易被检测机制发现,从而导致攻击失效。因此,如何设计一种隐蔽性更强、更难被检测的投毒攻击方法是一个关键问题。现有防御手段,如异常检测、数据清洗等,能够有效降低基于显式触发词的攻击效果,但对语义层面的隐蔽攻击防御能力不足。

核心思路:Cordyceps的核心思路是利用LLM对语义关联的理解能力,通过在训练数据中建立事实、概念等共享知识与攻击者选择的短语之间的隐蔽关联,教会LLM一种信息隐藏方案。这种方案允许攻击者将任意恶意指令编码成看似无害的文本,并在需要时解码执行,从而实现隐蔽控制。

技术框架:Cordyceps攻击主要包含以下几个阶段:1) 知识关联阶段:攻击者选择一组共享知识(如事实、概念),并将其与特定的触发短语关联。2) 数据投毒阶段:将包含这些关联的文本注入到LLM的训练数据集中。3) 指令编码阶段:攻击者将恶意指令编码成包含触发短语的文本。4) 指令解码与执行阶段:LLM接收到包含触发短语的文本后,解码出恶意指令并执行。

关键创新:Cordyceps的关键创新在于其隐蔽性。它不依赖于显式的触发词,而是利用LLM对语义关联的理解,将恶意指令隐藏在看似正常的文本中。这种方法使得攻击更难被检测,也更难被防御。与传统的基于触发词的攻击相比,Cordyceps能够绕过多种防御机制,实现更持久的控制。

关键设计:在知识关联阶段,需要精心选择共享知识和触发短语,以确保LLM能够学习到正确的关联。数据投毒的比例需要控制,以避免引起模型的性能下降或被检测。指令编码和解码方案的设计需要保证指令的准确性和可靠性,同时也要尽可能地降低被检测的风险。具体的损失函数和网络结构细节未在论文中明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Cordyceps攻击在平均攻击成功率上优于基于启发式的提示注入攻击,相对于干净的微调模型提高了约40%。即使在后门防御和提示注入防御后,Cordyceps攻击仍能保持高达93%和98%的攻击成功率,证明了其强大的隐蔽性和规避防御的能力。这些数据突出了Cordyceps攻击对现有LLM安全防御体系的威胁。

🎯 应用场景

Cordyceps攻击方法的研究,揭示了LLM在数据投毒方面的潜在安全风险,强调了对LLM训练数据进行严格审查和安全加固的重要性。该研究成果可应用于开发更强大的LLM安全防御机制,例如,设计能够检测和消除语义关联的防御系统,从而提高LLM的鲁棒性和安全性。此外,该研究也为评估和改进LLM的安全性提供了新的思路。

📄 摘要(原文)

Large language models (LLMs) are often fine-tuned on uncurated text datasets that adversaries can poison. Existing poisoning attacks primarily rely on fixed trigger phrases that defenses such as outlier detection, clean-data regularization, or online monitoring can neutralize. In this paper, we propose a data poisoning method that teaches an LLM an information hiding scheme reliably and stealthily through semantic associations between shared knowledge such as facts or concepts and attacker-chosen phrases. The induced hiding scheme can encode and decode arbitrary malicious instructions, thus revealing a new and subtle poisoning-induced vulnerability: covert control attacks. We precisely characterize covert control attacks and evaluate them across $5$ LLMs, $3$ backdoor defenses, and $4$ prompt injection defenses. With a small poisoned fraction, covert control attacks outperform heuristic-based prompt injection attacks in average attack success rate by about $40\%$ relative to clean fine-tuned models. They also circumvent defenses based on detection and fine-tuning, maintaining up to $93\%$ attack success rate after backdoor defenses and up to $98\%$ after prompt injection defenses.