Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets

📄 arXiv: 2504.19981v3 📥 PDF

作者: Adam Younsi, Ahmed Attia, Abdalgader Abubaker, Mohamed El Amine Seddik, Hakim Hacid, Salem Lahlou

分类: cs.LG, cs.CL

发布日期: 2025-04-28 (更新: 2025-10-13)


💡 一句话要点

提出基于自动PRM引导的GFlowNets,提升LLM数学推理的准确性和多样性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 生成式流网络 过程奖励模型 蒙特卡洛树搜索

📋 核心要点

  1. LLM在数学推理中面临准确性和多样性挑战,缺乏有效的中间步骤评估机制。
  2. 提出自动训练的过程奖励模型(PRM)指导生成式流网络(GFlowNets),实现多样化的高质量解。
  3. 实验表明,该方法在数学基准测试中显著提升了准确性和解的多样性,并具有良好的泛化能力。

📝 摘要(中文)

大型语言模型(LLM)在数学等复杂领域的推理中,同时实现准确性和多样性仍然具有挑战性。一个关键瓶颈是评估中间推理步骤以指导生成,而无需昂贵的人工标注。为了解决这个问题,我们首先引入了一种新颖的过程奖励模型(PRM),该模型通过蒙特卡洛树搜索以及基于相似性的数据增强技术进行自动训练,有效地捕获了步骤级别的推理质量。然后,我们利用这个PRM,调整生成式流网络(GFlowNets)以在推理步骤级别运行。与传统上侧重于最大化单一奖励的强化学习不同,GFlowNets自然地对与其奖励成比例的各种高质量解决方案进行采样,奖励由我们的PRM衡量。经验评估表明,在具有挑战性的数学基准测试中,准确性和解决方案多样性均得到了显著提高(例如,Llama3.2-3B在MATH Level 5上的绝对准确率提高了+2.59%),并且有效地推广到未见过的数据集(SAT MATH上的绝对准确率提高了+9.4%)。此外,我们针对现有的开源奖励模型对我们的PRM进行了基准测试,证明了其与推理质量的卓越对齐以及对下游生成更一致的指导。我们的工作证明了PRM引导的步骤级别GFlowNets在开发LLM中更强大和通用的数学推理方面的潜力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在数学推理任务中,既要保证推理的准确性,又要生成多样化的解这一难题。现有的方法通常依赖于人工标注来评估中间推理步骤的质量,成本高昂且难以扩展。此外,传统的强化学习方法侧重于最大化单一奖励,难以生成多样化的解决方案。

核心思路:论文的核心思路是利用自动训练的过程奖励模型(PRM)来指导生成式流网络(GFlowNets)的训练。PRM能够评估中间推理步骤的质量,从而为GFlowNets提供更细粒度的奖励信号。GFlowNets则能够根据PRM提供的奖励,生成多样化的、高质量的数学推理过程。这样,既避免了人工标注的成本,又能够提升LLM数学推理的准确性和多样性。

技术框架:整体框架包含两个主要模块:过程奖励模型(PRM)和生成式流网络(GFlowNets)。首先,使用蒙特卡洛树搜索和基于相似性的数据增强技术自动训练PRM,使其能够准确评估中间推理步骤的质量。然后,将PRM作为奖励函数,训练GFlowNets,使其能够生成多样化的、高质量的数学推理过程。在推理阶段,GFlowNets根据PRM的奖励,生成多个候选的推理过程,并选择其中最优的解。

关键创新:论文的关键创新在于以下两点:一是提出了自动训练的PRM,能够有效评估中间推理步骤的质量,避免了人工标注的成本;二是将PRM与GFlowNets相结合,实现了多样化的、高质量的数学推理过程生成。与传统的强化学习方法相比,GFlowNets能够更好地探索解空间,生成更多样化的解决方案。

关键设计:PRM的训练采用了蒙特卡洛树搜索和基于相似性的数据增强技术,以提高其评估中间推理步骤质量的准确性。GFlowNets的训练采用了PRM作为奖励函数,并设计了合适的损失函数,以保证其能够生成多样化的、高质量的数学推理过程。具体的参数设置和网络结构在论文中有详细描述,但未在此处详细展开。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在MATH Level 5数据集上,Llama3.2-3B的绝对准确率提高了+2.59%,在SAT MATH数据集上,绝对准确率提高了+9.4%。此外,PRM在与现有开源奖励模型的对比中,表现出与推理质量的卓越对齐以及对下游生成更一致的指导。

🎯 应用场景

该研究成果可应用于各种需要复杂推理的领域,如自动定理证明、代码生成、科学发现等。通过提升LLM的推理能力,可以显著提高相关任务的自动化水平和效率,并有望推动人工智能在科学研究和工程实践中的应用。

📄 摘要(原文)

Achieving both accuracy and diverse reasoning remains challenging for Large Language Models (LLMs) in complex domains like mathematics. A key bottleneck is evaluating intermediate reasoning steps to guide generation without costly human annotations. To address this, we first introduce a novel Process Reward Model (PRM) trained automatically using Monte Carlo Tree Search coupled with a similarity-based data augmentation technique, effectively capturing step-level reasoning quality. Leveraging this PRM, we then adapt Generative Flow Networks (GFlowNets) to operate at the reasoning step level. Unlike traditional reinforcement learning focused on maximizing a single reward, GFlowNets naturally sample diverse, high-quality solutions proportional to their rewards, as measured by our PRM. Empirical evaluation shows strong improvements in both accuracy and solution diversity on challenging mathematical benchmarks (e.g., +2.59% absolute accuracy on MATH Level 5 for Llama3.2-3B), with effective generalization to unseen datasets (+9.4\% absolute on SAT MATH). Furthermore, we benchmark our PRM against existing open-source reward models, demonstrating superior alignment with reasoning quality and more consistent guidance for downstream generation. Our work demonstrates the potential of PRM-guided, step-level GFlowNets for developing more robust and versatile mathematical reasoning in LLMs.