Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

作者: Sungjin Park, Xiao Liu, Yeyun Gong, Edward Choi

分类: cs.CL

发布日期: 2024-12-20

💡 一句话要点

提出LE-MCTS，通过过程奖励引导的树搜索集成大语言模型，提升复杂推理能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 集成学习 蒙特卡洛树搜索 复杂推理 过程奖励

📋 核心要点

现有大语言模型在复杂推理任务中表现不稳定，且现有集成方法无法有效提升推理能力。
LE-MCTS将推理过程建模为马尔可夫决策过程，通过树搜索寻找最优推理路径。
实验表明，LE-MCTS在数学推理任务上显著优于现有方法，性能提升明显。

📝 摘要（中文）

尽管大型语言模型取得了显著进展，但开源模型在复杂推理任务中表现仍然不稳定。现有的集成方法，无论是在token级别还是输出级别，都未能有效解决这些挑战。为此，我们提出了基于蒙特卡洛树搜索的语言模型集成框架（LE-MCTS），用于语言模型的过程级集成。LE-MCTS将语言模型集成下的逐步推理过程建模为马尔可夫决策过程。在该框架中，状态代表中间推理路径，动作包括使用从预定义池中选择的语言模型生成下一个推理步骤。在基于过程的奖励模型的指导下，LE-MCTS对不同语言模型生成的推理步骤执行树搜索，从而识别出最准确的推理链。在五个数学推理基准测试上的实验结果表明，我们的方法优于单语言模型解码算法和语言模型集成方法。值得注意的是，LE-MCTS在MATH和MQA数据集上的性能分别提高了3.6%和4.3%，突显了其在解决复杂推理问题方面的有效性。

🔬 方法详解

问题定义：现有的大语言模型，特别是开源模型，在解决复杂的推理问题时，表现往往不够稳定，难以达到令人满意的效果。现有的集成方法，无论是token级别的集成还是输出级别的集成，都无法充分利用不同模型的优势，难以有效提升复杂推理能力。

核心思路：LE-MCTS的核心思路是将复杂推理过程分解为一系列步骤，并将每一步的推理视为一个决策过程。通过蒙特卡洛树搜索（MCTS）来探索不同的推理路径，并利用一个基于过程的奖励模型来评估每条路径的质量。这样，就可以选择出一条由不同语言模型协同完成的、最优的推理链。

技术框架：LE-MCTS的整体框架包括以下几个主要模块：1) 状态表示：将中间推理路径表示为一个状态。2) 动作空间：动作为使用预定义池中的某个语言模型生成下一个推理步骤。3) 奖励模型：用于评估中间推理步骤的质量，指导树搜索的方向。4) 蒙特卡洛树搜索：在状态空间中进行搜索，寻找最优的推理路径。具体流程是，从初始状态开始，通过选择、扩展、模拟和反向传播等步骤，逐步构建搜索树，并最终选择具有最高奖励的路径作为最终的推理结果。

关键创新：LE-MCTS的关键创新在于其过程级别的集成方式。与传统的token级别或输出级别的集成方法不同，LE-MCTS能够充分利用不同语言模型在不同推理步骤上的优势，从而生成更准确、更可靠的推理链。此外，基于过程的奖励模型能够更准确地评估中间推理步骤的质量，从而更好地指导树搜索过程。

关键设计：奖励模型的设计是LE-MCTS的关键。论文中使用的奖励模型基于对中间推理步骤的正确性进行评估。具体的奖励函数可以根据不同的任务进行调整。MCTS的搜索策略也需要仔细设计，例如探索-利用平衡参数的设置，以及搜索树的深度和宽度等。此外，语言模型池的选择也会影响最终的性能，需要选择具有互补性的模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LE-MCTS在五个数学推理基准测试上均取得了显著的性能提升。特别是在MATH和MQA数据集上，LE-MCTS分别取得了3.6%和4.3%的性能提升，显著优于单语言模型解码算法和语言模型集成方法。这些结果表明，LE-MCTS能够有效解决复杂推理问题，并具有很强的实用价值。

🎯 应用场景

LE-MCTS具有广泛的应用前景，可以应用于数学问题求解、代码生成、知识图谱推理等需要复杂推理能力的领域。该方法可以提升AI系统在这些领域的性能和可靠性，例如，可以用于开发更智能的数学辅导系统、更强大的代码自动生成工具，以及更准确的知识推理引擎。未来，LE-MCTS还可以与其他技术相结合，例如强化学习和迁移学习，进一步提升其性能和泛化能力。

📄 摘要（原文）

Despite recent advances in large language models, open-source models often struggle to consistently perform well on complex reasoning tasks. Existing ensemble methods, whether applied at the token or output levels, fail to address these challenges. In response, we present Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), a novel framework for process-level ensembling of language models. LE-MCTS formulates step-by-step reasoning with an ensemble of language models as a Markov decision process. In this framework, states represent intermediate reasoning paths, while actions consist of generating the next reasoning step using one of the language models selected from a predefined pool. Guided by a process-based reward model, LE-MCTS performs a tree search over the reasoning steps generated by different language models, identifying the most accurate reasoning chain. Experimental results on five mathematical reasoning benchmarks demonstrate that our approach outperforms both single language model decoding algorithms and language model ensemble methods. Notably, LE-MCTS improves performance by 3.6% and 4.3% on the MATH and MQA datasets, respectively, highlighting its effectiveness in solving complex reasoning problems.

Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理