Efficient Safety Retrofitting Against Jailbreaking for LLMs
作者: Dario Garcia-Gasulla, Adrian Tormos, Anna Arias-Duart, Daniel Hinjos, Oscar Molina-Sedano, Ashwin Kumar Gururajan, Maria Eugenia Cardello
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-02-19 (更新: 2025-02-25)
💡 一句话要点
提出Egida数据集和DPO微调方法,高效提升LLM抗越狱攻击的安全性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 大型语言模型 安全性 越狱攻击 直接偏好优化 DPO 安全对齐 Egida数据集
📋 核心要点
- 现有LLM容易受到越狱攻击,导致其生成有害或不当内容,而传统的安全对齐方法需要大量的训练数据和计算资源。
- 论文提出使用直接偏好优化(DPO)方法,通过在偏好数据上进行训练,引导LLM生成更安全的输出,无需显式的奖励模型。
- 实验结果表明,使用少量数据和计算资源,DPO能够显著降低LLM的攻击成功率,并且模型能够泛化到未见过的攻击类型。
📝 摘要(中文)
本文研究了直接偏好优化(DPO)在提升大型语言模型(LLM)安全性,抵御越狱攻击方面的有效性,同时最小化数据需求和训练成本。为此,作者构建了一个名为Egida的数据集,该数据集汇集了来自多个来源的数据,涵盖27个不同的安全主题和18种不同的攻击方式,并辅以合成和人工标注。该数据集被用于提升最先进的LLM(Llama-3.1-8B/70B-Instruct, Qwen-2.5-7B/72B-Instruct)在不同主题和攻击风格上的安全性。除了安全性评估外,还评估了模型在通用任务中的性能下降情况以及过度拒绝的倾向。实验结果表明,使用少量训练样本(2,000个)和较低的计算成本,该方法可以将攻击成功率降低10%-30%。安全对齐的模型可以泛化到未见过的安全主题和攻击风格。模型大小和家族对安全性的可塑性有很大影响。为了验证研究结果,作者进行了一项大规模的独立评估,评估了人类偏好与Llama-Guard-3-8B的一致性,并发布了相关数据集Egida-HSafe。总而言之,这项研究表明,使用DPO增强LLM安全性是经济且可行的,同时也指出了其当前的局限性。所有数据集和模型均已发布,以方便重现和进一步研究。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)容易受到越狱攻击的问题,即攻击者通过精心设计的提示,诱导LLM生成有害或不当内容。现有安全对齐方法通常需要大量的训练数据和复杂的奖励模型,计算成本高昂,且难以泛化到新的攻击类型。
核心思路:论文的核心思路是利用直接偏好优化(DPO)算法,通过在偏好数据上进行训练,直接优化LLM的策略,使其更倾向于生成安全的输出。DPO避免了显式奖励模型的训练,简化了对齐过程,降低了计算成本。
技术框架:整体框架包括以下几个主要步骤:1) 构建Egida数据集,包含多种安全主题和攻击风格的样本,并进行人工或合成标注;2) 使用Egida数据集,通过DPO算法对LLM进行微调,使其更倾向于生成安全的输出;3) 对微调后的LLM进行安全性评估,包括攻击成功率、通用任务性能和过度拒绝率的评估;4) 发布数据集和模型,方便重现和进一步研究。
关键创新:论文的关键创新在于:1) 构建了包含多种安全主题和攻击风格的Egida数据集,为LLM安全研究提供了宝贵资源;2) 验证了DPO算法在提升LLM安全性方面的有效性,并证明了其在数据和计算资源方面的效率;3) 评估了模型大小和家族对安全性的影响,为LLM安全设计提供了指导。
关键设计:论文的关键设计包括:1) Egida数据集的构建,涵盖了27个安全主题和18种攻击风格,并辅以人工和合成标注;2) DPO算法的参数设置,例如学习率、batch size等;3) 评估指标的选择,包括攻击成功率、通用任务性能和过度拒绝率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用Egida数据集和DPO方法,可以将Llama-3.1-8B/70B-Instruct, Qwen-2.5-7B/72B-Instruct等模型的攻击成功率降低10%-30%,且仅需少量训练样本(2,000个)和较低的计算成本(8B模型3美元,72B模型20美元)。同时,安全对齐的模型可以泛化到未见过的安全主题和攻击风格,表明该方法具有良好的泛化能力。
🎯 应用场景
该研究成果可应用于各种需要安全保障的LLM应用场景,例如智能客服、内容生成、教育辅导等。通过使用DPO方法和Egida数据集,可以快速有效地提升LLM的安全性,降低其生成有害或不当内容的风险,从而提高用户信任度和满意度。此外,该研究也为LLM安全领域的研究提供了新的思路和方法。
📄 摘要(原文)
Direct Preference Optimization (DPO) is an efficient alignment technique that steers LLMs towards preferable outputs by training on preference data, bypassing the need for explicit reward models. Its simplicity enables easy adaptation to various domains and safety requirements. This paper examines DPO's effectiveness in model safety against jailbreaking attacks while minimizing data requirements and training costs. We introduce Egida, a dataset expanded from multiple sources, which includes 27 different safety topics and 18 different attack styles, complemented with synthetic and human labels. This data is used to boost the safety of state-of-the-art LLMs (Llama-3.1-8B/70B-Instruct, Qwen-2.5-7B/72B-Instruct) across topics and attack styles. In addition to safety evaluations, we assess their post-alignment performance degradation in general purpose tasks, and their tendency to over refusal. Following the proposed methodology, trained models reduce their Attack Success Rate by 10%-30%, using small training efforts (2,000 samples) with low computational cost (3\$ for 8B models, 20\$ for 72B models). Safety aligned models generalize to unseen topics and attack styles, with the most successful attack style reaching a success rate around 5%. Size and family are found to strongly influence model malleability towards safety, pointing at the importance of pre-training choices. To validate our findings, a large independent assessment of human preference agreement with Llama-Guard-3-8B is conducted by the authors and the associated dataset Egida-HSafe is released. Overall, this study illustrates how affordable and accessible it is to enhance LLM safety using DPO while outlining its current limitations. All datasets and models are released to enable reproducibility and further research.