TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

📄 arXiv: 2605.00224v1 📥 PDF

作者: Abdulhady Abas Abdullah, Fatemeh Daneshfar, Seyedali Mirjalili, Mourad Oussalah

分类: cs.AI

发布日期: 2026-04-30

备注: Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)


💡 一句话要点

提出TUR-DPO,一种拓扑和不确定性感知的直接偏好优化方法,提升LLM推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 直接偏好优化 大型语言模型 人类偏好对齐 推理拓扑 不确定性感知

📋 核心要点

  1. 现有DPO方法将人类偏好视为简单的胜负信号,易受噪声或脆弱推理链的影响,导致对齐效果不佳。
  2. TUR-DPO通过引入推理拓扑结构,结合语义忠实度、效用和拓扑质量,生成不确定性信号,从而更准确地评估答案的质量。
  3. 实验表明,TUR-DPO在多个任务上优于DPO,并在推理任务上与PPO持平或超越,同时保持了训练的简易性。

📝 摘要(中文)

本文提出了一种拓扑和不确定性感知的直接偏好优化方法(TUR-DPO),旨在提升大型语言模型(LLM)与人类偏好对齐的效果。与传统的直接偏好优化(DPO)将偏好视为简单的胜者/败者信号不同,TUR-DPO通过引入轻量级的推理拓扑结构,并结合语义忠实度、效用和拓扑质量,生成校准的不确定性信号,从而奖励答案的推导过程。该方法将这些信号分解为一个小的可学习奖励,并将其纳入不确定性加权的DPO目标中,保持了无强化学习的特性,仅依赖于固定的或移动的参考策略。实验结果表明,在7-8B的开源模型和数学推理、事实问答、摘要和有益/无害对话等基准测试中,TUR-DPO相对于DPO提高了判断胜率、忠实度和校准度,同时保持了训练的简单性,避免了在线rollout。此外,在多模态和长上下文设置中也观察到了一致的增益,并且在以推理为中心的任务上,TUR-DPO与PPO相匹配或超过了PPO,同时保持了操作的简易性。

🔬 方法详解

问题定义:现有直接偏好优化(DPO)方法在对齐大型语言模型(LLM)与人类偏好时,将偏好视为简单的胜者/败者信号,忽略了答案的推导过程。这种方法容易受到噪声偏好或由脆弱的推理链导致的偏好的影响,从而导致模型性能下降。尤其是在需要复杂推理的任务中,这种简化处理方式无法有效捕捉人类偏好的细微差别。

核心思路:TUR-DPO的核心思路是通过引入对答案推理过程的评估,来更准确地对齐LLM与人类偏好。具体来说,它通过提取轻量级的推理拓扑结构,并结合语义忠实度、效用和拓扑质量,生成一个校准的不确定性信号。这个信号反映了模型对答案质量的置信度,并用于加权DPO的目标函数,从而使模型能够学习到更鲁棒和可靠的偏好。这样设计的目的是奖励那些不仅给出正确答案,而且推理过程也合理的模型。

技术框架:TUR-DPO的整体框架包括以下几个主要步骤:1) 推理拓扑提取:从模型的输出中提取轻量级的推理拓扑结构,用于表示答案的推导过程。2) 不确定性信号生成:结合语义忠实度、效用和拓扑质量,生成一个校准的不确定性信号,用于评估答案的质量。3) 奖励函数设计:设计一个小的可学习奖励函数,该函数基于不确定性信号,用于奖励高质量的答案。4) 不确定性加权DPO:将奖励函数纳入不确定性加权的DPO目标函数中,从而优化模型。整个过程保持了无强化学习的特性,仅依赖于固定的或移动的参考策略。

关键创新:TUR-DPO最关键的创新在于引入了拓扑和不确定性感知机制。与传统的DPO方法不同,TUR-DPO不仅关注答案本身,还关注答案的推导过程。通过提取推理拓扑结构,并结合语义忠实度、效用和拓扑质量,生成一个校准的不确定性信号,从而更准确地评估答案的质量。这种方法能够更好地捕捉人类偏好的细微差别,并提高模型的鲁棒性和可靠性。

关键设计:TUR-DPO的关键设计包括:1) 推理拓扑提取方法:具体采用何种方法提取推理拓扑结构,例如基于注意力机制或知识图谱等。2) 不确定性信号的计算方式:如何结合语义忠实度、效用和拓扑质量来计算不确定性信号,例如使用加权平均或神经网络等。3) 奖励函数的具体形式:如何设计可学习的奖励函数,使其能够有效地奖励高质量的答案,例如使用线性模型或非线性模型等。4) 不确定性加权DPO目标函数:如何将不确定性信号纳入DPO目标函数中,例如使用加权交叉熵损失或加权KL散度等。这些具体的设计细节将直接影响TUR-DPO的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TUR-DPO在多个基准测试中优于DPO,包括数学推理、事实问答、摘要和有益/无害对话。例如,在数学推理任务中,TUR-DPO的判断胜率显著高于DPO,并且在推理任务上与PPO持平或超越。此外,TUR-DPO在多模态和长上下文设置中也表现出一致的增益,证明了其鲁棒性和泛化能力。

🎯 应用场景

TUR-DPO具有广泛的应用前景,可用于提升各种LLM在需要复杂推理的任务中的性能,例如数学问题求解、科学推理、代码生成等。此外,该方法还可以应用于对话系统,使其能够生成更符合人类偏好、更可靠和更令人满意的回复。通过提高LLM的对齐效果,TUR-DPO有助于构建更智能、更安全和更有益的人工智能系统。

📄 摘要(原文)

Aligning large language models (LLMs) with human preferences is commonly done via reinforcement learning from human feedback (RLHF) with Proximal Policy Optimization (PPO) or, more simply, via Direct Preference Optimization (DPO). While DPO is stable and RL-free, it treats preferences as flat winner vs. loser signals and is sensitive to noisy or brittle preferences arising from fragile chains of thought. We propose TUR-DPO, a topology- and uncertainty-aware variant of DPO that rewards how answers are derived, not only what they say, by eliciting lightweight reasoning topologies and combining semantic faithfulness, utility, and topology quality into a calibrated uncertainty signal. A small learnable reward is factorized over these signals and incorporated into an uncertainty-weighted DPO objective that remains RL-free and relies only on a fixed or moving reference policy. Empirically, across open 7-8B models and benchmarks spanning mathematical reasoning, factual question answering, summarization, and helpful/harmless dialogue, TUR-DPO improves judge win-rates, faithfulness, and calibration relative to DPO while preserving training simplicity and avoiding online rollouts. We further observe consistent gains in multimodal and long-context settings, and show that TUR-DPO matches or exceeds PPO on reasoning-centric tasks while maintaining operational simplicity.