DGPO: Beyond Pairwise Preferences with Directional Consistent Groupwise Optimization
作者: Mengyi Deng, Zhiwei Li, Xin Li, Tingyu Zhu, Yulan Yuan, Zhijiang Guo, Wei Wang
分类: cs.CL
发布日期: 2026-05-11
💡 一句话要点
提出方向性组级偏好优化(DGPO)框架,通过多候选比较提升大模型推理的一致性与多样性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 偏好优化 逻辑推理 对齐训练 模型一致性 机器学习
📋 核心要点
- 现有偏好优化方法多依赖成对比较,难以在保持推理多样性的前提下,有效解决模型在复杂逻辑推理中的方向性一致性问题。
- DGPO通过引入组级偏好优化框架,将正反向推理路径结构化,利用多候选比较机制显式建模方向感知对齐,从而强化推理逻辑的连贯性。
- 实验证明,DGPO在多个模型系列及基准测试中表现优异,通过引入反向数据与组级优化,实现了高达3.6%的平均准确率提升。
📝 摘要(中文)
尽管大语言模型(LLM)已取得显著进展,但现有的偏好优化方法在保持推理多样性的同时,难以有效对齐方向性一致性。为解决这一局限,我们提出了方向性组级偏好优化(DGPO),这是一个轻量级框架,通过组级聚合监督信号,并利用多候选比较显式建模方向感知对齐。DGPO将正向和反向的问题-答案实例组织为结构化集合,并优化一种基于边界的似然目标,从而将连贯的推理路径与不一致的替代方案区分开来。这种组级公式比成对目标捕获了更丰富的相对信息,并强化了不同推理路径间的一致性。实验结果表明,我们构建的反向数据在五个基准测试中平均提升了3.2%,而DGPO在多个数据集和模型系列上进一步实现了稳健增长,平均准确率提升高达3.6%。
🔬 方法详解
问题定义:现有基于成对偏好(Pairwise Preference)的优化方法(如DPO)在处理复杂推理任务时,往往忽略了推理路径的方向性一致性,导致模型在面对逻辑反转或多路径推理时容易产生不一致的输出,且难以平衡推理的多样性。
核心思路:论文提出将偏好优化从“成对”升级为“组级”(Groupwise),通过构建包含正向与反向推理路径的结构化集合,显式地建模推理的方向性,从而在优化过程中强制模型区分连贯的推理路径与逻辑不一致的干扰项。
技术框架:DGPO框架首先通过数据增强构建反向问题-答案对,形成结构化的组数据;随后在训练阶段,利用多候选比较机制,通过对比组内不同路径的似然概率,引导模型学习符合逻辑方向的推理模式。
关键创新:核心创新在于引入了“方向感知对齐”(Direction-aware Alignment),通过组级聚合监督信号,克服了传统成对优化中信息密度不足的问题,使得模型能够捕捉更复杂的推理依赖关系。
关键设计:采用了基于边界(Margin-based)的似然损失函数,该函数能够有效拉大连贯推理路径与不一致路径之间的概率差距,同时保持模型对多样化推理路径的覆盖能力,避免模型坍缩至单一路径。
🖼️ 关键图片
📊 实验亮点
DGPO在五个主流推理基准测试中表现卓越。通过引入反向数据构建,模型性能平均提升3.2%;在DGPO框架的加持下,模型在多个数据集上进一步实现了最高3.6%的平均准确率增长。实验结果验证了组级优化在处理复杂逻辑推理任务时,相较于传统成对优化方法具有显著的性能优势与更强的泛化能力。
🎯 应用场景
该研究主要应用于大语言模型的对齐训练阶段,特别适用于数学推理、代码生成及逻辑分析等对逻辑一致性要求极高的领域。通过提升模型在多路径推理中的稳健性,DGPO可显著改善AI助手在复杂任务处理中的可靠性,为构建更具逻辑严密性的智能体提供技术支撑。
📄 摘要(原文)
Although Large Language Models (LLMs) have made remarkable progress, current preference optimization methods still struggle to align directional consistency while preserving reasoning diversity. To address this limitation, we propose Directional-Groupwise Preference Optimization (DGPO), a lightweight framework that aggregates supervision signals at the group level and explicitly models direction-aware alignment through multi-candidate comparisons. DGPO organizes forward and reverse question-answer instances into structured sets and optimizes a margin-based likelihood objective that separates coherent reasoning paths from inconsistent alternatives. This group-wise formulation captures richer relative information than pairwise objectives and reinforces consistency across diverse reasoning pathways. Empirical results show that our constructed reverse data yields a 3.2% average improvement across five benchmarks, while DGPO further delivers consistent gains across multiple datasets and model families, achieving average accuracy improvements of up to 3.6%.