2D-Curri-DPO: Two-Dimensional Curriculum Learning for Direct Preference Optimization

📄 arXiv: 2504.07856v3 📥 PDF

作者: Mengyang Li, Zhong Zhang

分类: cs.AI

发布日期: 2025-04-10 (更新: 2025-07-29)

备注: We found a critical flaw in the prompt complexity metric, which affects the 2D curriculum grid construction and leads to potentially invalid comparisons. Since this undermines our main conclusions, we are withdrawing the paper and will revise the methodology before resubmission


💡 一句话要点

提出2D-Curri-DPO,通过二维课程学习优化语言模型对人类偏好的对齐。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 直接偏好优化 课程学习 语言模型对齐 人类偏好 Prompt复杂度 Pairwise区分度 自适应学习 强化学习

📋 核心要点

  1. 传统DPO方法依赖单一偏好对,忽略了prompt本身的复杂性,限制了模型对齐效果。
  2. 2D-Curri-DPO通过二维课程学习,同时考虑Prompt复杂度和Pairwise区分度,提升模型训练效率。
  3. 实验表明,该方法在多个基准测试中超越现有DPO和课程学习方法,并在高难度数据集上表现出色。

📝 摘要(中文)

为了使大型语言模型与人类偏好对齐,本文提出了2D-Curri-DPO框架。该框架采用二维课程学习,联合建模Prompt复杂度(PC)和Pairwise区分度。通过引入双重难度指标量化prompt的语义复杂度和response偏好清晰度,定义包含多种可选策略的任务自适应课程策略空间,并结合基于KL散度的自适应机制动态更新参考模型,以增强训练稳定性。实验结果表明,2D-Curri-DPO在MT-Bench、Vicuna Bench和WizardLM等多个基准测试中显著优于标准DPO和先前的课程学习方法,并在UltraFeedback等具有挑战性的测试集上实现了最先进的性能。消融研究证实了二维结构和自适应机制的优势,分析为策略选择提供了指导。研究表明,有效的对齐需要同时建模prompt复杂度和pairwise区分度,从而确立了自适应、多维课程学习作为一种强大的、可解释的基于偏好的语言模型优化新范式。

🔬 方法详解

问题定义:现有直接偏好优化(DPO)方法在对齐大型语言模型与人类偏好时,主要依赖于单个偏好对进行训练,忽略了输入prompt本身的复杂性。这种简化处理方式可能导致模型在处理复杂或模糊的prompt时表现不佳,限制了模型的泛化能力和对齐效果。此外,如何有效地利用多个偏好对信息,并根据prompt的难度自适应地调整训练策略,也是一个亟待解决的问题。

核心思路:2D-Curri-DPO的核心思路是引入二维课程学习,同时考虑Prompt复杂度(PC)和Pairwise区分度(PD)。通过量化prompt的语义复杂度和response偏好清晰度,构建一个二维的难度空间。模型根据自身学习状态和任务难度,自适应地选择合适的训练策略,从而更有效地学习人类偏好。这种方法旨在解决传统DPO方法忽略prompt复杂性以及难以有效利用多个偏好对信息的问题。

技术框架:2D-Curri-DPO框架主要包含以下几个模块:1) Prompt复杂度(PC)评估模块:用于量化输入prompt的语义复杂程度。2) Pairwise区分度(PD)评估模块:用于评估response偏好对之间的区分度,即哪个response更符合人类偏好。3) 课程策略空间:定义了一系列可选择的训练策略,每种策略对应于不同的PC和PD组合。4) 自适应策略选择模块:根据模型在训练过程中的表现,动态选择合适的训练策略。5) 基于KL散度的自适应参考模型更新机制:用于动态调整参考模型,以增强训练稳定性。

关键创新:该方法最重要的创新点在于提出了一个二维课程学习框架,将Prompt复杂度和Pairwise区分度结合起来,共同指导模型的训练过程。与传统的基于单一难度指标的课程学习方法相比,2D-Curri-DPO能够更全面地刻画任务的难度,并根据模型的学习状态自适应地调整训练策略。此外,基于KL散度的自适应参考模型更新机制也有助于提高训练的稳定性。

关键设计:在Prompt复杂度评估方面,可以使用诸如困惑度(perplexity)或基于预训练模型的语义相似度等指标。Pairwise区分度可以通过计算不同response的奖励得分差异来衡量。课程策略空间可以定义为PC和PD的离散组合,例如,将PC和PD分别划分为低、中、高三个等级,从而形成9种不同的训练策略。自适应策略选择模块可以使用强化学习或基于规则的方法。基于KL散度的自适应参考模型更新机制可以通过调整KL散度的系数来实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,2D-Curri-DPO在MT-Bench、Vicuna Bench和WizardLM等多个基准测试中显著优于标准DPO和先前的课程学习方法。例如,在UltraFeedback数据集上,2D-Curri-DPO实现了state-of-the-art的性能。消融研究证实了二维结构和自适应机制的有效性。这些结果表明,同时考虑prompt复杂度和pairwise区分度能够显著提升模型的对齐效果。

🎯 应用场景

2D-Curri-DPO可应用于各种需要对齐语言模型与人类偏好的场景,如对话系统、文本生成、代码生成等。通过提升模型对人类意图的理解和遵循能力,可以改善用户体验,减少有害或不当内容的生成,并提高模型的安全性。该方法有望推动人机协作的进一步发展,并促进人工智能在更广泛领域的应用。

📄 摘要(原文)

Aligning large language models with human preferences is crucial for their safe deployment. While Direct Preference Optimization (DPO) offers an efficient alternative to reinforcement learning from human feedback, traditional DPO methods are limited by their reliance on single preference pairs. Recent work like Curriculum-DPO integrates multiple pairs using a one-dimensional difficulty curriculum based on pairwise distinguishability (PD), but overlooks the complexity of the input prompt itself. To address this, we propose 2D-Curri-DPO, a novel framework employing a two-dimensional curriculum that jointly models Prompt Complexity (PC) and Pairwise Distinguishability. This framework introduces dual difficulty metrics to quantify prompt semantic complexity and response preference clarity, defines a curriculum strategy space encompassing multiple selectable strategies for task adaptation, and incorporates a KL-divergence-based adaptive mechanism for dynamic reference model updates to enhance training stability. Comprehensive experiments demonstrate that 2D-Curri-DPO significantly outperforms standard DPO and prior curriculum methods across multiple benchmarks, including MT-Bench, Vicuna Bench, and WizardLM. Our approach achieves state-of-the-art performance on challenging test sets like UltraFeedback. Ablation studies confirm the benefits of the 2D structure and adaptive mechanisms, while analysis provides guidance for strategy selection. These findings demonstrate that effective alignment requires modeling both prompt complexity and pairwise distinguishability, establishing adaptive, multi-dimensional curriculum learning as a powerful and interpretable new paradigm for preference-based language model optimization.