Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment
作者: Dongyoung Kim, Kimin Lee, Jinwoo Shin, Jaehyung Kim
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-06-06 (更新: 2025-03-04)
备注: ICLR 2025 Oral Presentation, 22 pages
💡 一句话要点
提出Spread Preference Annotation,利用少量数据高效对齐LLM
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型对齐 偏好学习 自标注数据 数据效率 logits偏好提取
📋 核心要点
- 现有LLM对齐方法依赖大量人工标注数据,成本高昂,限制了其应用。
- SPA框架利用少量种子数据中的人类先验知识,迭代生成并学习自标注偏好数据,逐步提升LLM对齐效果。
- 实验表明,SPA仅用少量数据即可在AlpacaEval 2.0上取得优于全数据训练和现有最佳方法的性能。
📝 摘要(中文)
为了解决大型语言模型(LLM)对齐人类偏好时需要大量标注数据的问题,本文提出了一种新的框架,即基于直接偏好判断的Spread Preference Annotation(SPA)。SPA仅使用少量人工标注的偏好数据,通过迭代生成回复并利用自标注的偏好数据进行学习,逐步提高LLM的对齐效果。具体而言,本文提出从LLM的logits中提取偏好标签,从而显式地提取模型固有的偏好。与使用外部奖励模型或隐式上下文学习的先前方法相比,本文提出的方法更为有效。此外,本文还引入了一种噪声感知的偏好学习算法,以减轻生成偏好数据中低质量的风险。实验结果表明,所提出的框架显著提高了LLM的对齐效果。例如,在AlpacaEval 2.0上,仅使用Ultrafeedback数据中3.3%的真实偏好标签,就实现了优于使用整个数据或最先进基线的对齐性能。
🔬 方法详解
问题定义:现有的大型语言模型对齐人类偏好需要大量的人工标注数据,这导致了高昂的成本和时间消耗。现有的方法,例如使用外部奖励模型或隐式上下文学习,在数据效率方面存在不足,难以在有限的数据下达到理想的对齐效果。
核心思路:本文的核心思路是利用少量人工标注的“种子”数据,从中提取人类的先验知识,并使用这些知识来引导LLM生成更多的回复。然后,利用LLM自身的logits来推断这些生成回复的偏好标签,从而实现自标注。通过迭代地生成回复和学习自标注的偏好数据,逐步提高LLM与人类偏好的一致性。
技术框架:SPA框架包含以下主要阶段:1) 使用少量人工标注的偏好数据作为种子数据。2) 使用LLM基于种子数据生成回复。3) 从LLM的logits中提取偏好标签,形成自标注的偏好数据。4) 使用自标注的偏好数据训练LLM。5) 重复步骤2-4,迭代地提高LLM的对齐效果。此外,还包含一个噪声感知的偏好学习模块,用于减轻生成数据中低质量样本的影响。
关键创新:最重要的技术创新点是从LLM的logits中直接提取偏好标签。与使用外部奖励模型相比,这种方法更加高效,因为它直接利用了LLM自身的信息。与隐式上下文学习相比,这种方法更加明确,因为它显式地提取了模型的偏好。此外,噪声感知的偏好学习算法也是一个重要的创新,它可以提高自标注数据的质量。
关键设计:在从logits中提取偏好标签时,论文可能使用了softmax函数或其他归一化方法来将logits转换为概率分布,并基于概率分布的差异来判断偏好。噪声感知的偏好学习算法可能使用了某种加权损失函数,对高质量的样本赋予更高的权重,对低质量的样本赋予更低的权重。具体的参数设置和网络结构细节需要在论文中进一步查找。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SPA框架在AlpacaEval 2.0上取得了显著的性能提升。仅使用Ultrafeedback数据中3.3%的真实偏好标签,SPA就实现了优于使用整个数据集或最先进基线的对齐性能。这表明SPA在数据效率方面具有显著优势,可以在少量数据下实现高效的LLM对齐。
🎯 应用场景
该研究成果可广泛应用于各种需要对齐LLM与人类偏好的场景,例如对话系统、内容生成、智能助手等。通过减少对大量人工标注数据的依赖,可以降低LLM的开发和部署成本,加速LLM在实际应用中的普及。此外,该方法还可以用于个性化LLM的训练,使其更好地适应不同用户的偏好。
📄 摘要(原文)
Aligning large language models (LLMs) with human preferences becomes a key component to obtaining state-of-the-art performance, but it yields a huge cost to construct a large human-annotated preference dataset. To tackle this problem, we propose a new framework, Spread Preference Annotation with direct preference judgment (SPA), that boosts the alignment of LLMs using only a very small amount of human-annotated preference data. Our key idea is leveraging the human prior knowledge within the small (seed) data and progressively improving the alignment of LLM, by iteratively generating the responses and learning from them with the self-annotated preference data. To be specific, we propose to derive the preference label from the logits of LLM to explicitly extract the model's inherent preference. Compared to the previous approaches using external reward models or implicit in-context learning, we observe that the proposed approach is significantly more effective. In addition, we introduce a noise-aware preference learning algorithm to mitigate the risk of low quality within generated preference data. Our experimental results demonstrate that the proposed framework significantly boosts the alignment of LLMs. For example, we achieve superior alignment performance on AlpacaEval 2.0 with only 3.3% of the ground-truth preference labels in the Ultrafeedback data compared to the cases using the entire data or state-of-the-art baselines.