Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation

📄 arXiv: 2503.12854v3 📥 PDF

作者: Songjun Tu, Jiahao Lin, Xiangyu Tian, Qichao Zhang, Linjing Li, Yuqian Fu, Nan Xu, Wei He, Xiangyuan Lan, Dongmei Jiang, Dongbin Zhao

分类: cs.CL

发布日期: 2025-03-17 (更新: 2025-07-28)

备注: 23pages

期刊: COLM2025


💡 一句话要点

提出迭代DPO框架,以低计算成本显著提升LLM推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 直接偏好优化 迭代学习 推理能力 奖励模型

📋 核心要点

  1. 强化学习(RL)在提升LLM推理能力方面表现突出,但其计算成本高昂,限制了应用。
  2. 论文提出迭代DPO框架,通过生成器和奖励模型的在线交互,实现相互提升,降低计算成本。
  3. 实验表明,单轮DPO能显著提升数学推理能力,DPO-VP模型以较低成本达到RL级别性能。

📝 摘要(中文)

本文研究了直接偏好优化(DPO)在促进大型语言模型(LLM)通过迭代的基于偏好的学习进行自我改进方面的有效性。研究表明,对于强大的基础模型,通过粗略过滤的单轮DPO可以显著提高数学推理性能。此外,本文设计了一个迭代增强框架,用于生成器和奖励模型(RM),通过多轮DPO的在线交互,实现它们的相互改进。最后,通过简单的可验证奖励,模型DPO-VP以显著降低的计算开销实现了RL级别的性能。这些发现表明,DPO是RL的一种可扩展且经济高效的替代方案,为在资源受限的情况下增强LLM推理提供了一种实用的解决方案。

🔬 方法详解

问题定义:现有基于强化学习的LLM推理能力提升方法计算成本高昂,难以在资源受限的环境下应用。因此,需要寻找一种更高效、更经济的替代方案,在保证性能的同时,降低计算开销。

核心思路:论文的核心思路是利用直接偏好优化(DPO)算法,通过迭代的方式训练生成器和奖励模型,使它们在交互中相互提升。DPO避免了复杂的强化学习过程,直接优化策略,降低了计算复杂度。

技术框架:整体框架包含以下几个主要阶段:1) 使用基础LLM作为生成器;2) 使用少量数据进行粗略过滤,进行单轮DPO训练,提升模型初步推理能力;3) 构建迭代增强框架,生成器和奖励模型通过多轮DPO进行在线交互,相互提升;4) 使用简单的可验证奖励,进一步优化模型性能。

关键创新:最重要的技术创新点在于迭代DPO框架的设计,它允许生成器和奖励模型在训练过程中相互学习和改进。与传统的单轮DPO相比,迭代DPO能够更充分地利用数据,提升模型性能。此外,使用简单的可验证奖励,进一步降低了训练难度和计算成本。

关键设计:在迭代DPO框架中,关键的设计包括:1) 奖励模型的选择和训练方式;2) 生成器和奖励模型之间的交互策略;3) 损失函数的设计,用于优化生成器和奖励模型。论文中使用了简单的可验证奖励,例如数学题的答案是否正确,来指导模型的训练。具体的参数设置和网络结构在论文中没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,单轮DPO可以显著提高LLM的数学推理性能,尤其对于强大的基础模型。通过迭代DPO框架,模型DPO-VP在计算成本显著降低的情况下,达到了与强化学习方法相当的性能水平。这些结果验证了DPO作为一种可扩展且经济高效的LLM推理能力提升方案的有效性。

🎯 应用场景

该研究成果可应用于各种需要LLM进行复杂推理的场景,例如数学问题求解、代码生成、逻辑推理等。通过降低计算成本,使得在资源受限的环境下也能训练出高性能的LLM推理模型,具有广泛的应用前景和实际价值。未来可以进一步探索迭代DPO在其他领域的应用,并研究更有效的奖励函数设计方法。

📄 摘要(原文)

Recent advancements in post-training methodologies for large language models (LLMs) have highlighted reinforcement learning (RL) as a critical component for enhancing reasoning. However, the substantial computational costs associated with RL-based approaches have led to growing interest in alternative paradigms, such as Direct Preference Optimization (DPO). In this study, we investigate the effectiveness of DPO in facilitating self-improvement for LLMs through iterative preference-based learning. We demonstrate that a single round of DPO with coarse filtering significantly enhances mathematical reasoning performance, particularly for strong base model. Furthermore, we design an iterative enhancement framework for both the generator and the reward model (RM), enabling their mutual improvement through online interaction across multiple rounds of DPO. Finally, with simple verifiable rewards, our model DPO-VP achieves RL-level performance with significantly lower computational overhead. These findings highlight DPO as a scalable and cost-effective alternative to RL, offering a practical solution for enhancing LLM reasoning in resource-constrained situations.