Detecting Instruction Fine-tuning Attacks on Language Models using Influence Function
作者: Jiawei Li
分类: cs.LG, cs.CR
发布日期: 2025-04-12 (更新: 2025-09-30)
🔗 代码/项目: GITHUB
💡 一句话要点
利用影响函数检测语言模型指令微调攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指令微调攻击检测 影响函数 语义转换 恶意样本识别 语言模型安全
📋 核心要点
- 指令微调攻击隐蔽性强,现有检测方法依赖攻击先验知识,难以有效识别。
- 该方法通过比较语义转换前后样本的影响分布,无需先验知识即可识别关键恶意样本。
- 实验表明,移除少量(约1%)恶意样本即可显著恢复模型性能,验证了方法的有效性。
📝 摘要(中文)
指令微调攻击通过在微调数据集中巧妙地嵌入恶意样本,对大型语言模型(LLM)构成严重威胁,导致下游应用中出现有害或非预期的行为。检测此类攻击具有挑战性,因为恶意数据通常与干净数据无法区分,并且很少有关于触发器或攻击策略的先验知识。我们提出了一种无需攻击先验知识的检测方法。我们的方法利用语义转换下的影响函数:通过比较情感反转前后影响的分布,我们识别出关键的恶意样本,这些样本的影响力很强,并且在反转前后保持不变。我们证明了该方法适用于情感分类任务和数学推理任务,以及不同的语言模型。移除一小部分关键恶意样本(约占数据的1%)可以将模型性能恢复到接近干净数据的水平。这些结果证明了基于影响的诊断方法在防御真实LLM部署中的指令微调攻击方面的实用性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在指令微调过程中遭受的恶意攻击检测问题。现有的检测方法通常依赖于对攻击模式或触发器的先验知识,这在实际应用中往往难以获得。因此,如何设计一种无需先验知识即可有效检测指令微调攻击的方法是本研究要解决的核心问题。现有方法的痛点在于无法应对未知攻击模式,泛化能力不足。
核心思路:论文的核心思路是利用影响函数来评估每个训练样本对模型预测的影响。通过对样本进行语义转换(例如情感反转),观察其影响函数的变化。如果一个样本的影响力很强,并且在语义转换前后保持不变,则该样本很可能是一个恶意样本。这是因为恶意样本通常会设计成对特定语义具有鲁棒性,从而在模型中植入后门。
技术框架:该方法主要包含以下几个阶段:1)计算每个训练样本的影响函数。2)对训练样本进行语义转换(例如情感反转)。3)计算语义转换后每个样本的影响函数。4)比较语义转换前后影响函数的分布,识别出影响力强且变化小的样本,将其标记为潜在的恶意样本。5)移除识别出的恶意样本,重新训练模型。
关键创新:该方法最重要的技术创新点在于利用语义转换下的影响函数来检测恶意样本。与现有方法相比,该方法无需任何关于攻击模式或触发器的先验知识,具有更强的泛化能力。此外,通过比较语义转换前后影响函数的分布,可以更准确地识别出对特定语义具有鲁棒性的恶意样本。
关键设计:在计算影响函数时,可以使用不同的近似方法,例如Hessian inverse approximation。语义转换的具体方式可以根据任务的特点进行选择,例如情感分类任务可以使用情感反转,数学推理任务可以使用问题扰动。关键参数包括影响函数的计算方法、语义转换的方式和强度、以及恶意样本的识别阈值。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在情感分类和数学推理任务上均能有效检测指令微调攻击。移除约1%的关键恶意样本后,模型性能恢复到接近干净数据的水平。例如,在情感分类任务中,该方法能够识别出导致模型产生错误情感倾向的恶意样本,并显著提高模型的分类准确率。
🎯 应用场景
该研究成果可应用于大型语言模型的安全部署,尤其是在涉及用户生成内容或第三方数据参与微调的场景下。通过检测并移除微调数据集中的恶意样本,可以有效防止模型被攻击者利用,从而提高模型的可靠性和安全性。该方法还有助于提升模型的可信度,降低模型产生有害或不当行为的风险。
📄 摘要(原文)
Instruction finetuning attacks pose a serious threat to large language models (LLMs) by subtly embedding poisoned examples in finetuning datasets, leading to harmful or unintended behaviors in downstream applications. Detecting such attacks is challenging because poisoned data is often indistinguishable from clean data and prior knowledge of triggers or attack strategies is rarely available. We present a detection method that requires no prior knowledge of the attack. Our approach leverages influence functions under semantic transformation: by comparing influence distributions before and after a sentiment inversion, we identify critical poison examples whose influence is strong and remain unchanged before and after inversion. We show that this method works on sentiment classification task and math reasoning task, for different language models. Removing a small set of critical poisons (about 1% of the data) restores the model performance to near-clean levels. These results demonstrate the practicality of influence-based diagnostics for defending against instruction fine-tuning attacks in real-world LLM deployment. Artifact available at https://github.com/lijiawei20161002/Poison-Detection. WARNING: This paper contains offensive data examples.