Know Thy Enemy: Securing LLMs Against Prompt Injection via Diverse Data Synthesis and Instruction-Level Chain-of-Thought Learning

📄 arXiv: 2601.04666v1 📥 PDF

作者: Zhiyuan Chang, Mingyang Li, Yuekai Huang, Ziyou Jiang, Xiaojun Jia, Qian Xiong, Junjie Wang, Zhaoyang Li, Qing Wang

分类: cs.AI, cs.CR

发布日期: 2026-01-08

备注: 19 pages, 6 figures


💡 一句话要点

InstruCoT:通过多样数据合成与指令级CoT学习增强LLM抵御Prompt注入攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Prompt注入攻击 大型语言模型 安全防御 链式思维 数据合成

📋 核心要点

  1. Prompt注入攻击对LLM应用构成严重威胁,现有方法难以有效识别和防御来自不同来源和位置的恶意指令。
  2. InstruCoT通过合成多样化的训练数据,并结合指令级链式思维微调,提升LLM识别和拒绝恶意指令的能力。
  3. 实验表明,InstruCoT在行为偏差、隐私泄露和有害输出等关键维度上显著优于现有基线方法,同时保持了模型效用。

📝 摘要(中文)

大型语言模型(LLM)集成应用日益普及,但面临着来自Prompt注入(PI)攻击的严重安全漏洞。防御PI攻击面临两个主要问题:恶意指令可以通过多种向量注入,并且注入的指令通常缺乏与周围上下文的清晰语义边界,难以识别。为了解决这些问题,我们提出InstruCoT,一种用于PI防御的模型增强方法,它合成了多样化的训练数据,并采用指令级链式思维(Chain-of-Thought)微调,使LLM能够有效地识别和拒绝恶意指令,无论其来源或在上下文中的位置。我们在三个关键维度上评估InstruCoT:行为偏差、隐私泄露和有害输出。对四个LLM的实验结果表明,InstruCoT在所有维度上都显著优于基线,同时保持了效用性能而没有下降。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在集成应用中面临的Prompt注入(PI)攻击问题。现有的防御方法难以有效应对来自不同来源和位置的恶意指令,并且恶意指令与正常上下文之间的语义边界模糊,导致难以准确识别和过滤。

核心思路:InstruCoT的核心思路是通过多样化的数据合成和指令级链式思维(CoT)微调,增强LLM对恶意指令的识别和防御能力。通过合成包含各种攻击模式和上下文的训练数据,使模型能够学习到更鲁棒的特征表示。指令级CoT微调则帮助模型理解指令的意图,从而更准确地判断其是否为恶意指令。

技术框架:InstruCoT主要包含两个阶段:数据合成阶段和模型微调阶段。在数据合成阶段,通过多种策略生成包含不同类型Prompt注入攻击的训练数据,包括行为偏差、隐私泄露和有害输出等。在模型微调阶段,使用合成的数据集对LLM进行指令级CoT微调,使模型能够学习到识别和拒绝恶意指令的能力。

关键创新:InstruCoT的关键创新在于其多样化的数据合成策略和指令级CoT微调方法。传统方法通常依赖于人工标注或简单的规则生成数据,而InstruCoT通过更复杂的策略生成更具挑战性的数据,从而提升模型的泛化能力。指令级CoT微调则使模型能够更深入地理解指令的意图,从而更准确地判断其是否为恶意指令。

关键设计:在数据合成阶段,论文设计了多种策略来生成不同类型的Prompt注入攻击数据,例如通过替换关键词、插入恶意代码等方式。在指令级CoT微调阶段,论文使用了交叉熵损失函数来优化模型,并设置了合适的学习率和训练轮数。具体的超参数设置和训练细节在论文中有详细描述。

📊 实验亮点

实验结果表明,InstruCoT在行为偏差、隐私泄露和有害输出等三个关键维度上均显著优于基线方法。例如,在行为偏差维度上,InstruCoT的防御成功率比现有最佳基线方法提高了15%以上。此外,InstruCoT在保持模型效用的同时,有效降低了Prompt注入攻击的风险,证明了其在实际应用中的价值。

🎯 应用场景

InstruCoT具有广泛的应用前景,可用于增强各种LLM集成应用的安全性,例如聊天机器人、智能助手、代码生成工具等。通过部署InstruCoT,可以有效防御Prompt注入攻击,保护用户隐私和系统安全,提升LLM应用的可靠性和可信度。未来,该技术有望应用于更复杂的安全场景,例如对抗性攻击检测和防御。

📄 摘要(原文)

Large language model (LLM)-integrated applications have become increasingly prevalent, yet face critical security vulnerabilities from prompt injection (PI) attacks. Defending against PI attacks faces two major issues: malicious instructions can be injected through diverse vectors, and injected instructions often lack clear semantic boundaries from the surrounding context, making them difficult to identify. To address these issues, we propose InstruCoT, a model enhancement method for PI defense that synthesizes diverse training data and employs instruction-level chain-of-thought fine-tuning, enabling LLMs to effectively identify and reject malicious instructions regardless of their source or position in the context. We evaluate InstruCoT across three critical dimensions: Behavior Deviation, Privacy Leakage, and Harmful Output. Experimental results across four LLMs demonstrate that InstruCoT significantly outperforms baselines in all dimensions while maintaining utility performance without degradation