SEAL: Safety-enhanced Aligned LLM Fine-tuning via Bilevel Data Selection

📄 arXiv: 2410.07471v2 📥 PDF

作者: Han Shen, Pin-Yu Chen, Payel Das, Tianyi Chen

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-10-09 (更新: 2024-10-11)

🔗 代码/项目: GITHUB


💡 一句话要点

SEAL:通过双层数据选择增强对齐的大语言模型微调安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全性 微调 双层优化 数据选择 对齐 对抗样本

📋 核心要点

  1. 现有大语言模型微调方法容易受到对抗样本的影响,导致模型安全性下降,这是一个重要挑战。
  2. SEAL框架通过双层优化学习数据排序器,区分安全和不安全数据,从而提升微调过程的安全性。
  3. 实验结果表明,SEAL在提升模型安全性的同时,还能保持甚至提高模型在下游任务上的性能。

📝 摘要(中文)

利用特定任务数据进行微调是提升大语言模型(LLM)下游性能的关键步骤。然而,之前的研究表明,在对抗样本甚至良性数据上微调模型可能会严重损害模型预先具备的对齐和安全能力。本文提出了SEAL,一种新颖的框架,旨在增强LLM微调的安全性。SEAL基于双层优化学习一个数据排序器,对安全和高质量的微调数据进行排序提升,对不安全或低质量的数据进行排序降低。使用SEAL训练的模型在多个基线上表现出卓越的质量,在Llama-3-8b-Instruct和Merlinite-7b模型上,与随机选择相比,胜率分别提高了8.5%和9.7%。代码已在github上开源。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)微调过程中模型安全性下降的问题。现有方法在微调时,容易受到对抗样本或低质量数据的影响,导致模型产生不安全或有害的输出,损害了模型预先具备的对齐和安全能力。

核心思路:SEAL的核心思路是通过学习一个数据排序器,对微调数据进行排序,优先选择安全和高质量的数据进行训练,同时降低不安全或低质量数据的权重。这样可以在微调过程中保持模型的安全性,并提升模型的整体性能。

技术框架:SEAL框架采用双层优化策略。外层优化目标是提升微调后模型的安全性和性能,内层优化目标是学习一个数据排序器,该排序器能够准确区分安全和不安全的数据。具体流程如下:首先,使用少量数据训练一个初始的LLM。然后,利用该LLM来评估数据集中的每个样本,并根据评估结果训练数据排序器。最后,使用排序器选择的数据对LLM进行微调。

关键创新:SEAL的关键创新在于使用双层优化来学习数据排序器,从而实现对微调数据的选择性利用。与传统的随机选择或基于规则的选择方法相比,SEAL能够更有效地识别和利用安全和高质量的数据,从而提升微调后模型的安全性。

关键设计:SEAL的关键设计包括:1) 使用双层优化框架,分别优化模型和数据排序器;2) 设计合适的损失函数,用于评估数据的安全性和质量;3) 使用有效的排序算法,对数据进行排序和选择。具体的损失函数和排序算法的选择取决于具体的应用场景和数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SEAL在Llama-3-8b-Instruct和Merlinite-7b模型上,与随机选择相比,胜率分别提高了8.5%和9.7%。这表明SEAL能够有效地提升微调后模型的安全性,同时保持甚至提高模型在下游任务上的性能。此外,SEAL在多个安全评估指标上均优于基线方法。

🎯 应用场景

SEAL框架可应用于各种需要安全保障的大语言模型微调场景,例如医疗、金融、法律等领域。通过提升模型的安全性,SEAL可以降低模型产生有害或不当输出的风险,从而提高模型在实际应用中的可靠性和可信度。未来,SEAL可以进一步扩展到多模态大语言模型,并与其他安全增强技术相结合。

📄 摘要(原文)

Fine-tuning on task-specific data to boost downstream performance is a crucial step for leveraging Large Language Models (LLMs). However, previous studies have demonstrated that fine-tuning the models on several adversarial samples or even benign data can greatly comprise the model's pre-equipped alignment and safety capabilities. In this work, we propose SEAL, a novel framework to enhance safety in LLM fine-tuning. SEAL learns a data ranker based on the bilevel optimization to up rank the safe and high-quality fine-tuning data and down rank the unsafe or low-quality ones. Models trained with SEAL demonstrate superior quality over multiple baselines, with 8.5% and 9.7% win rate increase compared to random selection respectively on Llama-3-8b-Instruct and Merlinite-7b models. Our code is available on github https://github.com/hanshen95/SEAL.