DDO-RM for LLM Preference Optimization: A Minimal Held-Out Benchmark against DPO

作者: Tiantian Zhang, Jierui Zuo, Wenping Wang

分类: stat.ML, cs.LG

发布日期: 2026-04-13

备注: 8 pages, 4 figures

💡 一句话要点

DDO-RM：一种针对LLM偏好优化的极简留出基准，对比DPO

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 偏好优化 大型语言模型 奖励模型 决策分布 直接偏好优化

📋 核心要点

现有直接偏好优化（DPO）方法在处理复杂偏好关系时可能存在局限性，尤其是在奖励建模不准确的情况下。
DDO-RM将偏好优化视为决策问题，通过奖励模型引导策略分布，从而更有效地学习复杂的偏好关系。
实验表明，在特定数据集和模型上，DDO-RM在配对准确率、AUC和平均边际方面优于DPO，但结果仍需进一步验证。

📝 摘要（中文）

本文围绕DPO与DDO-RM的偏好优化项目展开，重点关注算法视角和初步的留出基准。该基准提出了一个具体问题：即使在最小的成对选择-拒绝设置中，奖励引导的决策分布更新能否优于直接成对目标？我们在EleutherAI/pythia-410m上比较了直接偏好优化（DPO）和DDO-RM，使用HuggingFaceH4/ultrafeedback_binarized数据集，并在留出的test_prefs分割上评估，报告了种子42、13和3407的结果。从算法角度来看，DDO-RM将每个提示视为候选响应上的有限决策问题。它不只优化二元选择-拒绝关系，而是形成候选策略分布，在该分布下中心化奖励模型分数，并将奖励引导的目标分布提炼回策略中。在当前的公共基准中，相对于DPO，DDO-RM将平均配对准确率从0.5238提高到0.5602，AUC从0.5315提高到0.5382，平均边际从0.1377提高到0.5353。这些是令人鼓舞但仍是初步的结果：该研究涵盖了一个模型系列、一个数据集、一个留出评估分割和三个种子。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）的偏好优化问题，即如何使LLM的输出更好地符合人类的偏好。现有方法，如直接偏好优化（DPO），主要依赖于优化二元选择-拒绝关系，可能无法充分利用奖励模型提供的丰富信息，尤其是在奖励模型存在偏差或噪声的情况下。

核心思路：DDO-RM的核心思路是将偏好优化问题视为一个决策问题，其中每个提示对应于一个有限的候选响应集合。算法通过构建一个策略分布来表示对不同候选响应的偏好程度，并利用奖励模型来引导这个策略分布的更新。通过中心化奖励模型分数，DDO-RM可以更好地利用奖励模型的相对排序信息，从而更有效地学习人类偏好。

技术框架：DDO-RM的整体框架包括以下几个主要步骤：1) 对于每个提示，生成一组候选响应；2) 使用奖励模型对每个候选响应进行评分；3) 基于奖励模型的分数，构建一个策略分布，该分布表示对不同候选响应的偏好程度；4) 中心化奖励模型分数，以减少奖励模型的偏差；5) 将奖励引导的目标分布提炼回策略中，从而更新策略模型。

关键创新：DDO-RM的关键创新在于它将偏好优化问题视为一个决策问题，并利用奖励模型来引导策略分布的更新。与DPO等直接优化二元关系的方法不同，DDO-RM可以更充分地利用奖励模型提供的丰富信息，从而更有效地学习人类偏好。此外，中心化奖励模型分数的设计也有助于减少奖励模型的偏差，提高算法的鲁棒性。

关键设计：DDO-RM的关键设计包括：1) 策略分布的构建方式，例如可以使用softmax函数将奖励模型的分数转换为概率分布；2) 中心化奖励模型分数的方法，例如可以使用均值或中位数进行中心化；3) 目标分布的提炼方法，例如可以使用KL散度或交叉熵损失函数来衡量策略分布与目标分布之间的差异。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在EleutherAI/pythia-410m模型和HuggingFaceH4/ultrafeedback_binarized数据集上，DDO-RM在配对准确率、AUC和平均边际方面均优于DPO。具体而言，DDO-RM将平均配对准确率从0.5238提高到0.5602，AUC从0.5315提高到0.5382，平均边际从0.1377提高到0.5353。这些结果表明，DDO-RM在学习人类偏好方面具有一定的优势。

🎯 应用场景

DDO-RM具有广泛的应用前景，可以应用于各种需要对LLM的输出进行偏好优化的场景，例如对话系统、文本生成、代码生成等。通过更好地对齐LLM与人类偏好，DDO-RM可以提高LLM的实用性和用户满意度，并促进LLM在实际应用中的广泛部署。未来，DDO-RM可以进一步扩展到更复杂的偏好关系和奖励模型，以适应更广泛的应用场景。

📄 摘要（原文）

This paper reorganizes the current manuscript around the DPO versus DDO-RM preference-optimization project and focuses on two parts: the algorithmic view and the preliminary held-out benchmark. The benchmark asks a narrow question: even in a minimal pairwise chosen-versus-rejected setting, can a reward-guided decision-distribution update outperform a direct pairwise objective? We compare Direct Preference Optimization (DPO) against DDO-RM on EleutherAI/pythia-410m using HuggingFaceH4/ultrafeedback_binarized, evaluate on the held-out test_prefs split, and report results for seeds 42, 13, and 3407. Algorithmically, DDO-RM treats each prompt as a finite decision problem over candidate responses. Instead of optimizing only a binary chosen-rejected relation, it forms a policy distribution over candidates, centers reward-model scores under that distribution, and distills a reward-guided target distribution back into the policy. In the current public benchmark, DDO-RM improves mean pair accuracy from 0.5238 to 0.5602, AUC from 0.5315 to 0.5382, and mean margin from 0.1377 to 0.5353 relative to DPO. These are encouraging but still preliminary results: the study covers one model family, one dataset, one held-out evaluation split, and three seeds.

DDO-RM for LLM Preference Optimization: A Minimal Held-Out Benchmark against DPO

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理