What is in Your Safe Data? Identifying Benign Data that Breaks Safety
作者: Luxi He, Mengzhou Xia, Peter Henderson
分类: cs.LG, cs.AI, cs.CL, cs.CR
发布日期: 2024-04-01 (更新: 2024-08-20)
💡 一句话要点
提出双向锚定方法以识别破坏安全的良性数据
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 安全性 数据微调 越狱攻击 双向锚定 良性数据 机器学习
📋 核心要点
- 核心问题:现有的安全对齐模型在使用良性数据微调时,意外导致安全性下降,面临越狱风险。
- 方法要点:提出双向锚定方法,优先选择接近有害示例的数据点,以识别潜在的破坏性良性数据。
- 实验或效果:仅用100个看似良性的样本微调后,模型对70%以上的有害请求做出肯定响应,显著高于随机选择数据的20%。
📝 摘要(中文)
当前的大型语言模型(LLMs),即使经过安全和对齐的调优,仍然容易受到越狱攻击。有研究发现,仅仅用良性数据进一步微调对齐模型,竟然会导致安全性显著下降。本文探讨了良性微调为何会意外导致越狱的以数据为中心的原因。我们通过表示和梯度空间两个视角来表征微调数据,并提出了一种双向锚定方法,在选择过程中优先考虑接近有害示例而远离良性示例的数据点。我们的研究有效识别出更可能在微调后降低模型安全性的良性数据子集。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在使用良性数据微调时,意外导致安全性下降的问题。现有方法未能有效识别微调数据中潜在的破坏性良性数据,导致模型容易受到越狱攻击。
核心思路:论文提出了一种双向锚定方法,通过优先选择接近有害示例而远离良性示例的数据点,来识别那些可能降低模型安全性的良性数据。这种设计旨在从数据的角度深入理解微调过程中的安全性问题。
技术框架:整体架构包括数据选择模块和微调模块。数据选择模块通过分析数据在表示和梯度空间中的分布,识别出潜在的破坏性良性数据;微调模块则基于选择的数据进行模型的再训练。
关键创新:最重要的技术创新点在于双向锚定方法的提出,它与现有方法的本质区别在于关注数据的相对位置,而不仅仅是数据的内容。这种方法能够更有效地识别出对模型安全性构成威胁的良性数据。
关键设计:在选择数据时,采用了基于距离的优先级设置,确保选择的数据点在表示空间中接近有害示例,并在梯度空间中远离良性示例。此外,微调过程中使用了特定的损失函数,以增强模型对有害请求的抵抗力。
🖼️ 关键图片
📊 实验亮点
实验结果显示,仅用100个看似良性的样本进行微调,模型对超过70%的有害请求做出肯定响应,而随机选择数据的微调效果仅为20%。这一显著提升表明,识别良性数据中的潜在风险具有重要意义。
🎯 应用场景
该研究的潜在应用领域包括安全敏感的自然语言处理任务,如聊天机器人、内容生成和信息检索等。通过识别和过滤潜在的破坏性良性数据,可以提高模型的安全性和可靠性,减少越狱攻击的风险,具有重要的实际价值和未来影响。
📄 摘要(原文)
Current Large Language Models (LLMs), even those tuned for safety and alignment, are susceptible to jailbreaking. Some have found that just further fine-tuning an aligned model with benign data (i.e., data without harmful content) surprisingly leads to substantial degradation in safety. We delve into the data-centric aspects of why benign fine-tuning inadvertently contributes to jailbreaking. First, we represent fine-tuning data through two lenses: representation and gradient spaces. Additionally, we propose a bi-directional anchoring method that, during the selection process, prioritizes data points that are close to harmful examples and far from benign ones. Our approach effectively identifies subsets of benign data that are more likely to degrade the model's safety after fine-tuning. Training on just 100 of these seemingly benign datapoints surprisingly leads to the fine-tuned model affirmatively responding to >70% of tested harmful requests, compared to <20% after fine-tuning on randomly selected data. We also observe that the selected data frequently appear as lists, bullet points, or math questions, indicating a systematic pattern in fine-tuning data that contributes to jailbreaking.