LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning
作者: Di Zhang, Jianbo Wu, Jingdi Lei, Tong Che, Jiatong Li, Tong Xie, Xiaoshui Huang, Shufei Zhang, Marco Pavone, Yuqiang Li, Wanli Ouyang, Dongzhan Zhou
分类: cs.AI, cs.CL
发布日期: 2024-10-03 (更新: 2024-11-21)
💡 一句话要点
提出LLaMA-Berry以解决大型语言模型的数学推理能力不足问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学推理 大型语言模型 蒙特卡洛树搜索 自我优化 成对奖励模型 奥林匹克级基准 增强博尔达计数
📋 核心要点
- 现有方法在数学推理任务中存在评分变异性和非独立分布等挑战,导致推理能力不足。
- LLaMA-Berry框架结合MCTS与自我优化,通过成对奖励模型优化推理路径,提升解空间探索效率。
- 在复杂的奥林匹克级基准测试中,LLaMA-Berry在搜索效率和问题解决能力上显著优于ToT和rStar等现有方法。
📝 摘要(中文)
本文提出了一种先进的数学问题解决框架LLaMA-Berry,旨在增强大型语言模型(LLMs)的数学推理能力。该框架结合了蒙特卡洛树搜索(MCTS)与迭代自我优化(Self-Refine),通过优化推理路径并利用成对奖励模型对不同路径进行全局评估。通过利用LLMs的自我批评和重写能力,SR-MCTS克服了传统逐步和贪婪搜索算法的低效与局限,促进了更高效的解空间探索。受人类反馈强化学习(RLHF)启发的成对偏好奖励模型(PPRM)用于建模解之间的成对偏好,并通过增强博尔达计数(EBC)方法将这些偏好合成全球排名分数,从而找到更优解。该框架在一般和高级基准测试中表现优异,特别是在复杂的奥林匹克级基准(如GPQA、AIME24和AMC23)中,相较于现有方法如ToT和rStar,显示出更高的搜索效率和问题解决能力。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在数学推理任务中的低效问题,现有方法在处理复杂问题时存在评分变异性和非独立分布的挑战。
核心思路:LLaMA-Berry框架通过结合蒙特卡洛树搜索(MCTS)与自我优化(Self-Refine),优化推理路径并利用成对奖励模型(PPRM)进行全局评估,从而提升推理效率。
技术框架:该框架主要包括两个模块:MCTS与自我优化模块,前者用于探索解空间,后者则通过自我批评和重写能力优化推理路径,最终通过PPRM进行解的排名与选择。
关键创新:LLaMA-Berry的创新在于将自我优化与MCTS结合,克服了传统方法的局限性,特别是在复杂问题的处理上,提升了搜索效率和解的质量。
关键设计:在设计中,采用了增强博尔达计数(EBC)方法来合成成对偏好,确保了全局排名的准确性,同时优化了损失函数以适应复杂的数学推理任务。
🖼️ 关键图片
📊 实验亮点
在实验中,LLaMA-Berry在复杂的奥林匹克级基准测试中表现出色,相较于ToT和rStar,搜索效率提升了显著的比例,问题解决能力也得到了显著增强,具体性能数据未详述,但整体表现优于现有方法。
🎯 应用场景
LLaMA-Berry框架具有广泛的应用潜力,特别是在教育、科学研究和工程领域的复杂数学问题解决中。其高效的推理能力能够帮助学生和研究人员更好地理解和解决数学问题,推动相关领域的发展与创新。
📄 摘要(原文)
This paper presents an advanced mathematical problem-solving framework, LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with iterative Self-Refine to optimize the reasoning path and utilizes a pairwise reward model to evaluate different paths globally. By leveraging the self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS (SR-MCTS) overcomes the inefficiencies and limitations of conventional step-wise and greedy search algorithms by fostering a more efficient exploration of solution spaces. Pairwise Preference Reward Model~(PPRM), inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to model pairwise preferences between solutions, utilizing an Enhanced Borda Count (EBC) method to synthesize these preferences into a global ranking score to find better answers. This approach addresses the challenges of scoring variability and non-independent distributions in mathematical reasoning tasks. The framework has been tested on general and advanced benchmarks, showing superior performance in terms of search efficiency and problem-solving capability compared to existing methods like ToT and rStar, particularly in complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.