BadSKP: Backdoor Attacks on Knowledge Graph-Enhanced LLMs with Soft Prompts
作者: Xiaoting Lyu, Yufei Han, Hangwei Qian, Haoyuan Yu, Xiang Ao, Bin Wang, Chenxu Wang, Xiaobo Ma, Wei Wang
分类: cs.AI
发布日期: 2026-05-12
💡 一句话要点
提出BadSKP,针对知识图谱增强LLM的软提示后门攻击方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后门攻击 知识图谱 大型语言模型 软提示 图神经网络 对抗攻击 语义锚定
📋 核心要点
- 现有文本通道后门攻击对知识图谱增强LLM的软提示架构效果不佳,存在鲁棒性差距。
- 提出BadSKP,通过操纵图级表示,将图通道的语义锚定效应重定向到对抗性语义。
- 实验表明BadSKP在多种设置下均能实现高攻击成功率,优于传统文本攻击。
📝 摘要(中文)
近年来,知识图谱(KG)增强的大型语言模型(LLM)通过图神经网络将检索到的子图编码为连续的软提示,从而超越了纯文本知识增强,引入了一个与标准文本接口并行运行的图条件通道。然而,现有的后门攻击主要针对文本通道设计,它们对这种双通道架构的有效性尚不清楚。本文表明,这种架构产生了一个鲁棒性差距:易于破坏文本KG提示系统的文本通道后门攻击,对基于软提示的系统几乎无效。本文通过语义锚定来解释这种差距,即图导出的软提示将生成驱动的隐藏状态偏向于与查询一致的语义,并抑制表面上的恶意指令。由于这种锚定效应本身是由图通道引起的,因此操纵图级表示的攻击者可以反过来将其重定向到对抗性语义。为了证明这种风险,本文提出了一种针对图到提示接口的后门攻击BadSKP,它采用多阶段优化策略:构建对抗性目标嵌入,优化中毒节点嵌入以引导诱导的软提示,并使用流畅的对抗性节点属性来近似优化的表示。在四个数据集上的两个软提示KG增强LLM上的实验表明,BadSKP在冻结和特洛伊木马设置下都实现了高攻击成功率,而仅文本攻击即使在基于困惑度的防御下仍然不可靠。
🔬 方法详解
问题定义:现有后门攻击主要针对LLM的文本输入通道,而忽略了知识图谱增强LLM中图结构提供的额外攻击面。当LLM使用软提示(soft prompt)融合知识图谱信息时,传统的文本后门攻击效果会显著降低,因为图结构提供的语义锚定效应能够抑制恶意指令。因此,需要研究针对知识图谱增强LLM的、利用图结构进行后门攻击的方法。
核心思路:BadSKP的核心思路是通过操纵知识图谱中的节点嵌入,进而影响由图结构生成的软提示,最终诱导LLM产生攻击者期望的输出。具体来说,BadSKP旨在通过修改图中的节点属性,使得LLM在接收到包含特定触发词的输入时,能够提取出被篡改的知识图谱信息,从而生成预设的错误答案。
技术框架:BadSKP包含三个主要阶段:1) 构建对抗性目标嵌入:确定攻击目标,生成能够诱导目标输出的对抗性嵌入;2) 优化中毒节点嵌入:通过优化算法,调整被投毒的节点嵌入,使得生成的软提示尽可能接近对抗性目标嵌入;3) 近似优化表示:将优化后的节点嵌入转化为可理解的节点属性,例如文本描述,使得攻击更隐蔽。
关键创新:BadSKP的关键创新在于它利用了知识图谱增强LLM中图结构提供的攻击面,通过操纵图谱中的节点嵌入来影响LLM的输出。与传统的文本后门攻击相比,BadSKP能够绕过软提示的语义锚定效应,实现更高的攻击成功率。此外,BadSKP采用多阶段优化策略,使得攻击更加有效和隐蔽。
关键设计:BadSKP的关键设计包括:1) 对抗性目标嵌入的构建方式,需要保证其能够诱导LLM产生目标输出;2) 优化算法的选择,需要能够有效地调整节点嵌入,使其生成的软提示接近对抗性目标;3) 节点属性的生成方式,需要保证其流畅性和隐蔽性,避免被检测到。论文中可能使用了特定的损失函数来衡量生成的软提示与对抗性目标之间的差距,并使用梯度下降等优化算法来调整节点嵌入。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BadSKP在冻结和特洛伊木马设置下均能实现高攻击成功率,显著优于传统的文本后门攻击。即使在基于困惑度的防御机制下,BadSKP仍然能够保持较高的攻击成功率,表明其具有较强的攻击能力和绕过防御的能力。
🎯 应用场景
该研究成果可应用于评估和提升知识图谱增强LLM的安全性,尤其是在对抗后门攻击方面的鲁棒性。此外,该研究也为设计更安全的知识图谱嵌入方法提供了新的思路,有助于构建更可靠的智能系统,例如问答系统、对话系统和推荐系统。
📄 摘要(原文)
Recent knowledge graph (KG)-enhanced large language models (LLMs) move beyond purely textual knowledge augmentation by encoding retrieved subgraphs into continuous soft prompts via graph neural networks, introducing a graph-conditioned channel that operates alongside the standard text interface. However, existing backdoor attacks are largely designed for the textual channel, and their effectiveness against this dual-channel architecture remains unclear. We show that this architecture creates a robustness gap: text-channel backdoor attacks that readily compromise textual KG prompting systems become largely ineffective against soft-prompt-based counterparts. We interpret this gap through semantic anchoring, whereby graph-derived soft prompts bias the generation-driving hidden state toward query-consistent semantics and suppress surface-level malicious instructions. Because this anchoring effect is itself induced by the graph channel, an attacker who manipulates graph-level representations can in turn redirect it toward adversarial semantics. To demonstrate this risk, we propose BadSKP, a backdoor attack that targets the graph-to-prompt interface through a multi-stage optimization strategy: it constructs adversarial target embeddings, optimizes poisoned node embeddings to steer the induced soft prompt, and approximates the optimized representations with fluent adversarial node attributes. Experiments on two soft-prompt KG-enhanced LLMs across four datasets show that BadSKP achieves high attack success under both frozen and trojaned settings, while text-only attacks remain unreliable even under perplexity-based defenses.