DDO-RM for LLM Preference Optimization: A Minimal Held-Out Benchmark against DPO
作者: Tiantian Zhang, Jierui Zuo, Wenping Wang
分类: stat.ML, cs.LG
发布日期: 2026-04-13
备注: 8 pages, 4 figures
💡 一句话要点
DDO-RM:一种针对LLM偏好优化的极简留出基准,对比DPO
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 偏好优化 大型语言模型 奖励模型 决策分布 直接偏好优化
📋 核心要点
- 现有直接偏好优化(DPO)方法在处理复杂偏好关系时可能存在局限性,尤其是在奖励建模不准确的情况下。
- DDO-RM将偏好优化视为决策问题,通过奖励模型引导策略分布,从而更有效地学习复杂的偏好关系。
- 实验表明,在特定数据集和模型上,DDO-RM在配对准确率、AUC和平均边际方面优于DPO,但结果仍需进一步验证。
📝 摘要(中文)
本文围绕DPO与DDO-RM的偏好优化项目展开,重点关注算法视角和初步的留出基准。该基准提出了一个具体问题:即使在最小的成对选择-拒绝设置中,奖励引导的决策分布更新能否优于直接成对目标?我们在EleutherAI/pythia-410m上比较了直接偏好优化(DPO)和DDO-RM,使用HuggingFaceH4/ultrafeedback_binarized数据集,并在留出的test_prefs分割上评估,报告了种子42、13和3407的结果。从算法角度来看,DDO-RM将每个提示视为候选响应上的有限决策问题。它不只优化二元选择-拒绝关系,而是形成候选策略分布,在该分布下中心化奖励模型分数,并将奖励引导的目标分布提炼回策略中。在当前的公共基准中,相对于DPO,DDO-RM将平均配对准确率从0.5238提高到0.5602,AUC从0.5315提高到0.5382,平均边际从0.1377提高到0.5353。这些是令人鼓舞但仍是初步的结果:该研究涵盖了一个模型系列、一个数据集、一个留出评估分割和三个种子。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)的偏好优化问题,即如何使LLM的输出更好地符合人类的偏好。现有方法,如直接偏好优化(DPO),主要依赖于优化二元选择-拒绝关系,可能无法充分利用奖励模型提供的丰富信息,尤其是在奖励模型存在偏差或噪声的情况下。
核心思路:DDO-RM的核心思路是将偏好优化问题视为一个决策问题,其中每个提示对应于一个有限的候选响应集合。算法通过构建一个策略分布来表示对不同候选响应的偏好程度,并利用奖励模型来引导这个策略分布的更新。通过中心化奖励模型分数,DDO-RM可以更好地利用奖励模型的相对排序信息,从而更有效地学习人类偏好。
技术框架:DDO-RM的整体框架包括以下几个主要步骤:1) 对于每个提示,生成一组候选响应;2) 使用奖励模型对每个候选响应进行评分;3) 基于奖励模型的分数,构建一个策略分布,该分布表示对不同候选响应的偏好程度;4) 中心化奖励模型分数,以减少奖励模型的偏差;5) 将奖励引导的目标分布提炼回策略中,从而更新策略模型。
关键创新:DDO-RM的关键创新在于它将偏好优化问题视为一个决策问题,并利用奖励模型来引导策略分布的更新。与DPO等直接优化二元关系的方法不同,DDO-RM可以更充分地利用奖励模型提供的丰富信息,从而更有效地学习人类偏好。此外,中心化奖励模型分数的设计也有助于减少奖励模型的偏差,提高算法的鲁棒性。
关键设计:DDO-RM的关键设计包括:1) 策略分布的构建方式,例如可以使用softmax函数将奖励模型的分数转换为概率分布;2) 中心化奖励模型分数的方法,例如可以使用均值或中位数进行中心化;3) 目标分布的提炼方法,例如可以使用KL散度或交叉熵损失函数来衡量策略分布与目标分布之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在EleutherAI/pythia-410m模型和HuggingFaceH4/ultrafeedback_binarized数据集上,DDO-RM在配对准确率、AUC和平均边际方面均优于DPO。具体而言,DDO-RM将平均配对准确率从0.5238提高到0.5602,AUC从0.5315提高到0.5382,平均边际从0.1377提高到0.5353。这些结果表明,DDO-RM在学习人类偏好方面具有一定的优势。
🎯 应用场景
DDO-RM具有广泛的应用前景,可以应用于各种需要对LLM的输出进行偏好优化的场景,例如对话系统、文本生成、代码生成等。通过更好地对齐LLM与人类偏好,DDO-RM可以提高LLM的实用性和用户满意度,并促进LLM在实际应用中的广泛部署。未来,DDO-RM可以进一步扩展到更复杂的偏好关系和奖励模型,以适应更广泛的应用场景。
📄 摘要(原文)
This paper reorganizes the current manuscript around the DPO versus DDO-RM preference-optimization project and focuses on two parts: the algorithmic view and the preliminary held-out benchmark. The benchmark asks a narrow question: even in a minimal pairwise chosen-versus-rejected setting, can a reward-guided decision-distribution update outperform a direct pairwise objective? We compare Direct Preference Optimization (DPO) against DDO-RM on EleutherAI/pythia-410m using HuggingFaceH4/ultrafeedback_binarized, evaluate on the held-out test_prefs split, and report results for seeds 42, 13, and 3407. Algorithmically, DDO-RM treats each prompt as a finite decision problem over candidate responses. Instead of optimizing only a binary chosen-rejected relation, it forms a policy distribution over candidates, centers reward-model scores under that distribution, and distills a reward-guided target distribution back into the policy. In the current public benchmark, DDO-RM improves mean pair accuracy from 0.5238 to 0.5602, AUC from 0.5315 to 0.5382, and mean margin from 0.1377 to 0.5353 relative to DPO. These are encouraging but still preliminary results: the study covers one model family, one dataset, one held-out evaluation split, and three seeds.