MDPO: Multi-Granularity Direct Preference Optimization for Mathematical Reasoning
作者: Yunze Lin
分类: cs.LG, cs.AI
发布日期: 2025-05-30
💡 一句话要点
提出MDPO:一种多粒度直接偏好优化方法,提升LLM的数学推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学推理 大型语言模型 直接偏好优化 多粒度学习 长链推理
📋 核心要点
- 现有LLM在数学推理中易产生幻觉,DPO方法在长链推理中效果有限,无法有效区分正确与错误答案。
- MDPO方法从Solution2Solution、Inference2Inference和Step2Step三个粒度优化LLM的数学推理能力。
- 实验结果表明,MDPO在GSM8K和MATH数据集上均优于DPO及其他变体,且提供了一种低成本数据构建pipeline。
📝 摘要(中文)
大型语言模型(LLMs)在数学推理方面面临重大挑战,因为需要确保每个推理步骤的正确性。研究人员一直在通过监督微调来增强LLMs的数学推理能力,但由于无法抑制不正确的输出,容易产生幻觉。最近,直接偏好优化(DPO)通过使用偏好数据来防止LLMs生成不正确的输出,已被广泛用于对齐人类意图。然而,它在长链数学推理中显示出有限的益处,这主要是因为DPO难以有效地捕捉长链数据中接受答案和拒绝答案之间的差异。DPO训练和LLMs生成指标之间的不一致性也影响了抑制不正确输出的有效性。我们提出了多粒度直接偏好优化(MDPO)方法,在三个粒度上优化LLMs的数学推理:Solution2Solution、Inference2Inference和Step2Step。Solution2Solution侧重于整个长链推理的正确性;Inference2Inference侧重于步骤之间的逻辑推理;Step2Step纠正步骤中的计算错误,从而增强LLMs的计算能力。此外,我们统一了三个粒度的训练目标,以与生成指标对齐。我们在开源模型Qwen2和Llama3上进行了实验,在GSM8K数据集上分别实现了1.7%和0.9%的改进,在MATH数据集上分别实现了2.3%和1.2%的改进,优于DPO和其他DPO变体方法。此外,我们还提供了一个构建MDPO训练数据的pipeline,该pipeline简单且不需要手动标注成本。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在长链数学推理中表现不佳的问题。现有方法,如监督微调,难以抑制错误输出,导致幻觉问题。直接偏好优化(DPO)虽然能对齐人类意图,但在长链推理中难以有效区分正确和错误的答案,且DPO训练目标与LLM生成指标不一致,影响了效果。
核心思路:论文的核心思路是将DPO应用于多个粒度,即Solution2Solution、Inference2Inference和Step2Step。通过在不同粒度上优化,模型可以更好地理解和纠正推理过程中的错误,从而提高整体的数学推理能力。统一不同粒度的训练目标,使其与LLM的生成指标对齐,进一步提升了模型的性能。
技术框架:MDPO的整体框架包含三个主要的优化阶段:Solution2Solution,关注整个推理链的正确性;Inference2Inference,关注推理步骤之间的逻辑连贯性;Step2Step,关注每个步骤的计算准确性。这三个阶段并行或串行地进行优化,最终提升LLM的数学推理能力。此外,论文还提供了一个自动化的数据构建pipeline,用于生成MDPO训练所需的多粒度偏好数据。
关键创新:MDPO的关键创新在于其多粒度的优化策略。与传统的DPO方法只关注最终答案的正确性不同,MDPO深入到推理过程的每个步骤和推理链的逻辑关系中,从而更全面地提升模型的推理能力。此外,统一不同粒度的训练目标也是一个重要的创新,它使得模型能够更好地学习和泛化。
关键设计:MDPO的关键设计包括:1)针对不同粒度设计不同的偏好数据构建方法,例如,通过程序验证或规则匹配来判断每个步骤的正确性;2)设计统一的损失函数,将不同粒度的优化目标整合在一起,使得模型能够同时学习不同粒度的知识;3)设计高效的训练策略,例如,采用 curriculum learning 的方式,先从简单的步骤开始训练,再逐步增加难度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MDPO在GSM8K数据集上,Qwen2模型提升了1.7%,Llama3模型提升了0.9%;在MATH数据集上,Qwen2模型提升了2.3%,Llama3模型提升了1.2%。这些提升显著优于DPO和其他DPO变体方法,证明了MDPO在提升LLM数学推理能力方面的有效性。
🎯 应用场景
MDPO方法可应用于各种需要复杂推理能力的场景,例如科学研究、金融分析、智能客服等。通过提升LLM的数学推理能力,可以提高这些应用场景的自动化水平和决策质量。未来,MDPO可以扩展到其他类型的推理任务,例如常识推理和逻辑推理,从而更广泛地提升LLM的智能水平。
📄 摘要(原文)
Mathematical reasoning presents a significant challenge for Large Language Models (LLMs) as it requires ensuring the correctness of each reasoning step. Researchers have been strengthening the mathematical reasoning abilities of LLMs through supervised fine-tuning, but due to the inability to suppress incorrect outputs, illusions can easily arise. Recently, Direct Preference Optimization (DPO) has been widely adopted for aligning human intent by using preference data to prevent LLMs from generating incorrect outputs. However, it has shown limited benefits in long-chain mathematical reasoning, mainly because DPO struggles to effectively capture the differences between accepted and rejected answers from preferences in long-chain data. The inconsistency between DPO training and LLMs' generation metrics also affects the effectiveness of suppressing incorrect outputs. We propose the Multi-Granularity Direct Preference Optimization (MDPO) method, optimizing the mathematical reasoning of LLMs at three granularities: Solution2Solution, Inference2Inference, and Step2Step. Solution2Solution focuses on the correctness of entire long-chain reasoning; Inference2Inference concentrates on logical reasoning between steps; Step2Step corrects computational errors in steps, enhancing the computational capabilities of LLMs. Additionally, we unify the training objectives of the three granularities to align with the generation metrics. We conducted experiments on the open-source models Qwen2 and Llama3, achieving improvements of 1.7% and 0.9% on the GSM8K dataset, and 2.3% and 1.2% on the MATH dataset, outperforming DPO and other DPO variant methods. Furthermore, we also provide a pipeline for constructing MDPO training data that is simple and does not require manual annotation costs.