Forward versus Backward: Comparing Reasoning Objectives in Direct Preference Optimization

📄 arXiv: 2601.07199v1 📥 PDF

作者: Murtaza Nikzad, Raghuram Ramanujan

分类: cs.LG, cs.AI

发布日期: 2026-01-12


💡 一句话要点

对比正向与反向推理目标,提升直接偏好优化在数学问题上的可靠性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理能力 直接偏好优化 正向推理 反向验证 幻觉 GSM8K

📋 核心要点

  1. 大型语言模型推理能力强,但易产生“幻觉”,即给出看似合理但错误的答案,影响了其可靠性。
  2. 论文研究了在直接偏好优化(DPO)中,正向推理(生成正确推理链)和反向验证(识别错误)两种训练目标对模型推理能力的影响。
  3. 实验表明,正向训练提升了解题准确率,反向训练降低了错误率,但两种方法都会降低模型的自我纠错能力。

📝 摘要(中文)

大型语言模型展现出令人印象深刻的推理能力,但经常生成看似合理但不正确的解决方案,这种现象通常被称为幻觉。本文通过直接偏好优化,研究了训练目标组成对推理可靠性的影响。研究了两种互补的训练信号:正向思维链生成,训练模型生成正确的推理过程;反向验证,训练模型验证候选解决方案并识别错误。在GSM8K上的实验揭示了这些目标之间存在根本性的权衡。仅使用正向DPO训练实现了最高的准确率提升,从83.1%提高到86.6%(+3.5个百分点),而仅使用反向训练产生的准确率增益最小,但显著降低了假阳性率,从13.4%降至4.3%。值得注意的是,与基线相比,两种训练变体都降低了确认率,表明偏好优化提高了模型对其输出的置信度。这些发现表明,正向和反向推理目标提供了不同的、互补的学习信号:正向训练提高了解决问题的能力,而反向训练提高了验证校准能力。完整的训练和评估流程通过低秩自适应高效实现,并已发布以促进进一步研究。

🔬 方法详解

问题定义:现有的大型语言模型在推理任务中,虽然能够生成看似合理的答案,但经常出现错误,即“幻觉”现象。这降低了模型在需要高可靠性场景下的应用价值。现有的方法往往侧重于提高模型的解题准确率,而忽略了模型对自身答案的验证和纠错能力。

核心思路:论文的核心思路是将推理过程分解为两个互补的部分:正向推理和反向验证。正向推理侧重于让模型生成正确的推理链,从而得到正确的答案;反向验证侧重于让模型能够识别和纠正自身推理过程中的错误。通过分别训练模型在这两个方面的能力,可以提高模型的整体推理可靠性。

技术框架:论文采用直接偏好优化(DPO)框架,分别针对正向推理和反向验证设计了不同的训练目标。对于正向推理,训练目标是让模型生成正确的推理链;对于反向验证,训练目标是让模型能够识别和纠正错误的推理链。通过DPO,模型可以直接优化其对不同推理路径的偏好,从而提高推理的准确性和可靠性。

关键创新:论文的关键创新在于提出了将正向推理和反向验证作为互补的训练目标,并将其应用于直接偏好优化框架中。这种方法能够有效地提高模型的推理可靠性,并且可以灵活地调整正向推理和反向验证的权重,以适应不同的应用场景。

关键设计:论文使用GSM8K数据集进行实验,该数据集包含小学数学应用题。实验中,分别训练了仅使用正向推理目标、仅使用反向验证目标以及同时使用两种目标的DPO模型。为了提高训练效率,论文采用了低秩自适应(LoRA)方法。具体来说,LoRA通过在预训练语言模型的权重矩阵上添加低秩矩阵来实现参数的微调,从而大大减少了训练所需的计算资源。

📊 实验亮点

实验结果表明,仅使用正向DPO训练可以将GSM8K数据集上的准确率从83.1%提高到86.6%(+3.5个百分点),而仅使用反向训练可以将假阳性率从13.4%降低到4.3%。这表明正向训练更擅长提高解题能力,而反向训练更擅长提高验证能力。但两种训练方式都会降低模型对自身答案的质疑能力。

🎯 应用场景

该研究成果可应用于需要高可靠性推理的场景,例如金融分析、医疗诊断、法律咨询等。通过提高模型推理的准确性和可靠性,可以减少错误决策的风险,提高工作效率。此外,该研究还可以促进对大型语言模型推理机制的理解,为开发更可靠的AI系统提供理论指导。

📄 摘要(原文)

Large language models exhibit impressive reasoning capabilities yet frequently generate plausible but incorrect solutions, a phenomenon commonly termed hallucination. This paper investigates the effect of training objective composition on reasoning reliability through Direct Preference Optimization. Two complementary training signals are examined: forward chain-of-thought generation, which trains the model to produce correct reasoning traces, and backward verification, which trains the model to verify and acknowledge errors in candidate solutions. Experiments on GSM8K reveal a fundamental trade-off between these objectives. Forward-only DPO training achieves the highest accuracy improvement, increasing from 83.1% to 86.6% (+3.5 percentage points), while backward-only training yields minimal accuracy gains but substantially reduces the false positive rate from 13.4% to 4.3%. Notably, both training variants reduce acknowledgement rate compared to the baseline, suggesting that preference optimization increases model confidence in its outputs. These findings indicate that forward and backward reasoning objectives provide distinct and complementary learning signals: forward training improves problem-solving capability, while backward training improves verification calibration. The complete training and evaluation pipeline, implemented efficiently through Low-Rank Adaptation, is released to facilitate further research.