Course-Correction: Safety Alignment Using Synthetic Preferences
作者: Rongwu Xu, Yishuo Cai, Zhenhong Zhou, Renjie Gu, Haiqin Weng, Yan Liu, Tianwei Zhang, Wei Xu, Han Qiu
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-07-23 (更新: 2024-10-26)
备注: Paper accepted to EMNLP 2024. Camera-ready version. We have released our dataset and scripts at https://github.com/pillowsofwind/Course-Correction
💡 一句话要点
提出基于合成偏好的课程纠正方法,提升大语言模型安全性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 安全性对齐 课程纠正 偏好学习 合成数据 越狱攻击 安全调优
📋 核心要点
- 现有大语言模型在生成内容时存在产生有害信息的风险,缺乏自主避免机制。
- 通过偏好学习,模型学习及时纠正错误方向,避免生成有害内容。
- 实验表明,该方法有效提升了模型课程纠正能力,增强了安全性,并抵抗越狱攻击。
📝 摘要(中文)
大型语言模型(LLMs)生成有害内容的风险日益严重。本文系统研究了评估和提升LLMs执行“课程纠正”任务的能力,即模型能够自主避免生成有害内容。首先,我们引入了 extsc{C$^2$-Eval}基准用于定量评估,并分析了10个流行的安全调优LLMs,揭示了当前模型在课程纠正方面的能力差异。为了改进,我们提出使用偏好学习来微调LLMs,强调及时课程纠正的偏好。我们使用自动化流程创建了 extsc{C$^2$-Syn},一个包含750K个成对偏好的合成数据集,通过数据驱动的偏好学习来教导模型及时课程纠正的概念。在 extsc{Llama2-Chat 7B}和 extsc{Qwen2 7B}上的实验表明,我们的方法有效地增强了课程纠正技能,且不影响通用性能。此外,它有效地提高了LLMs的安全性,尤其是在抵抗越狱攻击方面。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)生成有害内容的问题,即模型在生成内容时,如果发现潜在的有害信息,缺乏自主纠正的能力。现有方法通常依赖于人工标注数据进行安全对齐,成本高昂且难以覆盖所有潜在的有害场景。此外,现有安全调优的LLMs在课程纠正方面的能力参差不齐,需要更有效的评估和改进方法。
核心思路:论文的核心思路是利用偏好学习,使模型能够学习到“及时课程纠正”的概念。具体来说,模型通过学习成对的偏好数据,区分哪些行为是更安全、更符合伦理规范的,从而在生成内容时能够自主地避免有害信息的产生。这种方法强调模型在生成过程中的自我纠正能力,而不是事后的过滤或修改。
技术框架:整体框架包含三个主要部分:1) extsc{C$^2$-Eval}基准的构建,用于评估现有LLMs的课程纠正能力;2) extsc{C$^2$-Syn}合成数据集的生成,包含750K个成对偏好数据,用于训练模型;3) 基于偏好学习的LLM微调,使用合成数据集训练模型,提升其课程纠正能力。该流程是全自动化的,降低了人工标注的成本。
关键创新:论文的关键创新在于提出了基于合成偏好的课程纠正方法。与传统的安全对齐方法相比,该方法不需要大量的人工标注数据,而是通过自动化流程生成合成数据,降低了成本。此外,该方法强调模型在生成过程中的自我纠正能力,而不是事后的过滤或修改,更符合实际应用场景。
关键设计: extsc{C$^2$-Syn}数据集的生成是关键设计之一。该数据集包含750K个成对偏好数据,每个数据包含一个prompt,一个“好”的response和一个“坏”的response。好坏response的区分基于是否及时进行了课程纠正。模型使用这些数据进行偏好学习,例如使用Direct Preference Optimization (DPO) 损失函数,学习区分好坏response,从而提升课程纠正能力。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用 extsc{C$^2$-Syn}数据集进行微调后, extsc{Llama2-Chat 7B}和 extsc{Qwen2 7B}模型的课程纠正能力得到了显著提升,同时保持了通用性能。此外,该方法还提高了模型抵抗越狱攻击的能力,表明其在安全性方面具有显著优势。具体性能提升数据未知。
🎯 应用场景
该研究成果可应用于各种需要安全保障的大语言模型应用场景,例如智能客服、内容创作、教育辅导等。通过提升模型的课程纠正能力,可以有效降低有害信息产生的风险,提高用户体验,并增强模型的可靠性和安全性。未来,该方法可以进一步扩展到其他类型的安全问题,例如隐私保护、信息安全等。
📄 摘要(原文)
The risk of harmful content generated by large language models (LLMs) becomes a critical concern. This paper presents a systematic study on assessing and improving LLMs' capability to perform the task of \textbf{course-correction}, \ie, the model can steer away from generating harmful content autonomously. To start with, we introduce the \textsc{C$^2$-Eval} benchmark for quantitative assessment and analyze 10 popular LLMs, revealing varying proficiency of current safety-tuned LLMs in course-correction. To improve, we propose fine-tuning LLMs with preference learning, emphasizing the preference for timely course-correction. Using an automated pipeline, we create \textsc{C$^2$-Syn}, a synthetic dataset with 750K pairwise preferences, to teach models the concept of timely course-correction through data-driven preference learning. Experiments on 2 LLMs, \textsc{Llama2-Chat 7B} and \textsc{Qwen2 7B}, show that our method effectively enhances course-correction skills without affecting general performance. Additionally, it effectively improves LLMs' safety, particularly in resisting jailbreak attacks.