MASS-DPO: Multi-negative Active Sample Selection for Direct Policy Optimization
作者: Rohan Surana, Xintong Li, Sheldon Yu, Yiran Jenny Shen, Chuhan Wang, Tong Yu, Prithviraj Ammanabrolu, Jingbo Shang, Julian McAuley, Junda Wu
分类: cs.LG
发布日期: 2026-05-11
💡 一句话要点
提出MASS-DPO:基于Fisher信息的主动负样本选择策略,优化多负样本偏好学习效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 直接偏好优化 主动学习 Fisher信息 大语言模型对齐 推荐系统 梯度优化
📋 核心要点
- 现有基于PL模型的多负样本DPO方法在处理大规模负样本池时,存在计算开销大且梯度信息高度冗余的问题。
- MASS-DPO引入基于Fisher信息的主动选择机制,通过对数行列式目标函数筛选出具有互补梯度方向的负样本子集。
- 实验证明该方法在推荐与问答任务中,能以更少样本实现更优的对齐效果,并显著提升了训练效率与模型性能。
📝 摘要(中文)
基于Plackett-Luce (PL) 模型的多负样本偏好优化通过利用一个偏好响应与多个拒绝响应的比较信号,扩展了直接偏好优化(DPO)。然而,在大规模负样本池上进行优化计算成本高昂,且由于候选样本对策略更新的影响相似,往往导致梯度冗余。本文提出了MASS-DPO,一种多负样本主动选择方法。该方法推导了一个针对PL模型的Fisher信息目标函数,用于在每个提示词下选择紧凑且信息量大的负样本子集。由此产生的对数行列式目标函数能够筛选出提供互补梯度信息的负样本,在保留全量池信息的同时减少冗余。实验表明,MASS-DPO在推荐系统和多项选择问答等四个基准测试及三种模型架构上,均能以更少的负样本实现优于或持平现有方法的准确率,并显著提升了Recall/NDCG指标及基于边际的优化动态。
🔬 方法详解
问题定义:在基于PL模型的多负样本偏好优化中,如何从海量拒绝响应中高效筛选出最具信息量的子集,以解决计算冗余和梯度重叠问题,是提升模型对齐效率的关键挑战。
核心思路:论文的核心思想是将负样本选择建模为信息最大化问题。通过利用Fisher信息矩阵(FIM)衡量样本对策略参数更新的贡献,选择一组能够覆盖不同梯度方向的样本,从而在保持信息完整性的前提下实现样本集的“精简”。
技术框架:MASS-DPO流程包括:首先计算候选负样本的梯度贡献;其次,基于PL模型推导Fisher信息目标;最后,通过对数行列式(Log-Determinant)优化目标,在每个Prompt下动态选择一个紧凑的负样本子集用于后续的DPO训练。
关键创新:最重要的创新在于将主动学习中的实验设计思想引入DPO,通过Fisher信息度量样本间的互补性,而非仅仅依赖样本的损失值,从而有效剔除近重复(near-duplicate)样本带来的冗余梯度。
关键设计:该方法采用了基于行列式点过程(DPP)思想的对数行列式目标函数,该函数天然倾向于选择梯度空间中线性无关的样本,确保了所选子集在参数更新空间中的多样性与信息覆盖度。
🖼️ 关键图片
📊 实验亮点
MASS-DPO在四个基准测试(涵盖推荐与问答)及三种模型家族上表现卓越。实验显示,该方法在显著减少负样本数量的前提下,不仅保持了与全量样本相当的准确率,还在Recall和NDCG指标上实现了提升,证明了其在优化动态和对齐效率上的显著优势。
🎯 应用场景
该方法广泛适用于大语言模型的对齐训练,特别是在推荐系统排序优化、多项选择问答以及需要从大规模负样本池中进行高效偏好学习的场景。其降低计算成本与提升对齐质量的特性,使其在资源受限的工业级模型微调中具有极高的应用价值。
📄 摘要(原文)
Multi-negative preference optimization under the Plackett--Luce (PL) model extends Direct Preference Optimization (DPO) by leveraging comparative signals across one preferred and multiple rejected responses. However, optimizing over large negative pools is costly, and many candidates contribute redundant gradients due to their similar effects on policy updates. We introduce MASS-DPO, a multi-negative active sample selection method that derives a PL-specific Fisher-information objective for selecting compact, informative negative subsets within each prompt. The resulting log-determinant objective selects negatives that contribute complementary information for policy updates, yielding compact subsets that retain the full pool's information while reducing redundancy. In practice, this favors negatives whose gradients cover different update directions, reducing redundant signal from near-duplicate candidates while preserving the most useful training information. Across four benchmarks spanning recommendation and multiple-choice QA and three model families, MASS-DPO consistently exceeds or matches existing methods in accuracy, improves Recall/NDCG and margin-based optimization dynamics, and delivers stronger alignment with substantially fewer negatives.