Beyond Pairs: Your Language Model is Secretly Optimizing a Preference Graph
作者: Ning Liu, Chuanneng Sun, Kristina Klinkner, Shervin Malmasi
分类: cs.LG, cs.AI
发布日期: 2026-05-08
💡 一句话要点
提出GraphDPO算法,通过偏好图建模优化语言模型对齐,解决成对偏好学习的局限性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 大语言模型 模型对齐 直接偏好优化 图神经网络 强化学习 逻辑推理
📋 核心要点
- 现有DPO方法将多输出偏好强制拆解为独立对,导致偏好传递性丢失、监督信号冗余及优化过程不稳定。
- 提出GraphDPO算法,将偏好建模为有向无环图,利用Plackett-Luce目标函数聚合邻域信息,实现对复杂偏好结构的全局优化。
- 在推理与程序合成任务中,GraphDPO显著优于成对及列表式对齐基线,验证了其在处理复杂反馈数据时的鲁棒性与高效性。
📝 摘要(中文)
直接偏好优化(DPO)通过成对比较对齐语言模型,是人类反馈强化学习(RLHF)的有效替代方案。然而,实际数据中每个提示词往往对应多个输出,形成丰富的偏好结构,而传统的成对DPO无法利用这些信息。将此类数据简化为独立对会丢失传递性,引入冗余或冲突的监督信号,导致优化不稳定。本文提出GraphDPO,将DPO推广至由输出排序诱导的有向无环偏好图。GraphDPO将支配关系编码为边,并优化基于Plackett-Luce模型的图结构目标函数,通过聚合图邻域监督信息强制执行传递性,同时兼容标准DPO。为处理离散或稀疏信号,作者引入了等价类构建方法,使偏好相同的响应形成图层,避免虚假梯度。尽管利用了完整图结构,GraphDPO通过高效的log-sum-exp聚合保持了线性复杂度。实验表明,该方法在推理和程序合成任务中表现优异,证明了图结构偏好建模在对齐任务中的可扩展性与鲁棒性。
🔬 方法详解
问题定义:现有DPO方法在处理多输出(Multi-rollout)场景时,将偏好数据强行拆解为独立对,这忽略了偏好间的传递性,且在处理冲突数据时容易产生冗余或错误的梯度信号,限制了模型对复杂逻辑推理任务的对齐效果。
核心思路:论文提出将偏好建模为有向无环图(DAG),利用图结构捕捉响应间的支配关系。通过引入Plackett-Luce模型,将局部成对比较扩展为全局图结构优化,从而在保持计算效率的同时,充分利用多输出数据中的完整偏好信息。
技术框架:GraphDPO构建了一个包含所有响应节点的偏好图,通过边表示支配关系。算法核心在于利用log-sum-exp聚合函数,在图的邻域内计算损失,从而在保持线性复杂度的前提下,将偏好传递性约束融入到模型训练中。
关键创新:引入了“等价类构建”机制,将偏好相同的响应归为同一图层,并令层内边损失为零,有效过滤了虚假梯度。此外,支持通过插入验证过的“锚点”解来引导训练,并采用退火调度策略平衡监督强度。
关键设计:损失函数基于Plackett-Luce分布的变体,通过高效的聚合算子实现对图结构的遍历。训练过程中引入了可选的Ground-truth Anchoring,通过将正确解作为支配节点,在训练初期提供强监督,随后逐渐放松以适应模型生成分布。
🖼️ 关键图片
📊 实验亮点
实验结果显示,GraphDPO在推理任务(如GSM8K)和程序合成任务(如HumanEval)中均显著超越了标准DPO及其他列表式对齐方法。通过利用图结构信息,模型在处理多输出数据时表现出更强的收敛稳定性,且在保持计算开销与标准DPO同量级的情况下,实现了对复杂偏好关系的精准建模。
🎯 应用场景
该方法适用于需要复杂逻辑推理、代码生成及多步骤决策的语言模型对齐场景。在这些领域中,模型通常会生成多个候选答案,GraphDPO能够有效利用这些候选答案间的细微偏好差异,提升模型在复杂任务中的准确性与逻辑一致性,具有极高的工业应用价值。
📄 摘要(原文)
Direct Preference Optimization (DPO) aligns language models using pairwise preference comparisons, offering a simple and effective alternative to Reinforcement Learning (RL) from human feedback. However, in many practical settings, training data consists of multiple rollouts per prompt, inducing rich preference structure that pairwise DPO fails to exploit. Collapsing such data into independent pairs discards transitivity, introduces redundant or conflicting supervision, and can lead to unstable optimization. We propose Graph Direct Preference Optimization (GraphDPO), a principled generalization of DPO that operates over directed acyclic preference graphs induced by rollout rankings. GraphDPO encodes dominance relations as edges and optimizes a graph-structured Plackett--Luce-inspired objective that aggregates supervision over graph neighborhoods, enforcing transitivity while recovering standard DPO as a special case. To handle discrete or sparse signals, we introduce an equivalence-class construction where responses with identical preferences form graph layers, and intra-layer edges contribute zero loss, preventing spurious gradients. Despite leveraging full graph structure, GraphDPO maintains linear per-prompt complexity via efficient log-sum-exp aggregation. We further incorporate optional ground-truth anchoring by inserting verified solutions as dominant nodes and applying an annealed schedule that stabilizes early training while gradually relaxing oracle supervision. Experiments on reasoning and program synthesis tasks demonstrate superior performance, suggesting that graph-structured preference modeling is a scalable and robust alternative to pairwise and listwise alignment objectives.