GroupDPO: Memory efficient Group-wise Direct Preference Optimization

📄 arXiv: 2604.15602v1 📥 PDF

作者: Jixuan Leng, Si Si, Hsiang-Fu Yu, Vinod Raman, Inderjit S. Dhillon

分类: cs.CL

发布日期: 2026-04-17


💡 一句话要点

提出GroupDPO,通过内存高效的分组直接偏好优化提升LLM对齐效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 直接偏好优化 大型语言模型 偏好对齐 分组优化 内存优化

📋 核心要点

  1. 现有偏好优化方法在训练LLM时,未能充分利用偏好数据集中多个候选响应的监督信息。
  2. GroupDPO通过分组对比多个响应,并在反向传播时解耦样本,显著降低内存占用,实现更大规模训练。
  3. 实验表明,GroupDPO在离线和在线对齐中均优于单样本对训练,且引入NLL项对提升性能和稳定训练至关重要。

📝 摘要(中文)

本文提出了一种内存高效的分组直接偏好优化算法(GroupDPO),用于将大型语言模型(LLM)与偏好反馈对齐。现有方法通常只使用每个prompt的单个正负样本对进行训练,忽略了偏好数据集中包含的多个候选响应所提供的额外监督信息。GroupDPO通过在反向传播期间解耦样本来保留梯度,从而显著降低峰值内存使用量,实现更大组规模的可扩展训练。在离线和在线对齐设置中,实验结果表明,利用多个响应始终优于单样本对训练。此外,将正样本响应上的负对数似然(NLL)项纳入训练对于性能提升和训练稳定性至关重要。

🔬 方法详解

问题定义:现有基于偏好优化的LLM对齐方法,如DPO,通常只利用单个正负样本对进行训练,忽略了偏好数据集中同一prompt下的多个候选响应所蕴含的丰富信息。直接使用多个响应进行训练会导致显著的内存开销,限制了训练规模和分组大小,阻碍了性能提升。

核心思路:GroupDPO的核心思路是在训练过程中,将同一prompt下的多个响应作为一个组进行对比,从而更充分地利用偏好信息。为了解决由此带来的内存问题,GroupDPO在反向传播过程中解耦样本,避免了梯度累积导致的内存爆炸。

技术框架:GroupDPO的整体框架与DPO类似,但损失函数被修改为考虑一个prompt下的多个响应。具体来说,对于每个prompt,模型会生成多个候选响应,并根据偏好数据进行排序。GroupDPO的目标是最大化高质量响应的概率,同时最小化低质量响应的概率。关键在于反向传播阶段,通过解耦样本,避免了梯度累积,从而降低了内存占用。

关键创新:GroupDPO最关键的创新在于其内存高效的分组优化策略。通过在反向传播过程中解耦样本,GroupDPO能够在不显著增加内存开销的情况下,利用多个响应进行训练。这使得模型能够更有效地学习偏好信息,从而提升对齐效果。与传统的单样本对训练方法相比,GroupDPO能够更好地利用偏好数据集中的信息。

关键设计:GroupDPO的关键设计包括:1) 分组损失函数,用于对比同一prompt下的多个响应;2) 反向传播解耦策略,用于降低内存占用;3) 引入负对数似然(NLL)项,用于提高训练稳定性和性能。NLL项鼓励模型生成高质量的响应,并防止模型过度拟合偏好数据。具体的损失函数形式和反向传播算法细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GroupDPO在离线和在线对齐设置中均优于传统的单样本对训练方法。具体来说,GroupDPO能够显著提升LLM的生成质量和用户偏好对齐程度。此外,实验还验证了引入负对数似然(NLL)项对于提高训练稳定性和性能的重要性。通过内存优化,GroupDPO能够支持更大的分组大小,进一步提升性能。

🎯 应用场景

GroupDPO可广泛应用于各种需要将大型语言模型与人类偏好对齐的场景,例如对话系统、文本生成、代码生成等。通过更有效地利用偏好数据,GroupDPO能够提升LLM的生成质量和用户满意度,从而在智能客服、内容创作、软件开发等领域发挥重要作用。该方法降低了训练成本,使得更大规模的偏好优化成为可能。

📄 摘要(原文)

Preference optimization is widely used to align Large Language Models (LLMs) with preference feedback. However, most existing methods train on a single positive-negative pair per prompt, discarding additional supervision available in preference datasets that typically contain multiple candidate responses. Motivated by this limitation, recent work explores group-wise preference optimization, which jointly contrasts multiple responses for the same prompt, but its empirical behavior and scalability remain underexplored due to the memory overhead of group-coupled objectives. In this work, we introduce a memory-efficient group-wise preference optimization algorithm that preserves gradients while decoupling samples during backpropagation, substantially reducing peak memory usage, which enables scalable training with larger group sizes. Across both offline and online alignment settings, we show that leveraging multiple responses consistently outperforms single-pair training. Furthermore, incorporating a negative log-likelihood (NLL) term on positive responses is critical for both performance gains and training stability.