Process Reward Models Meet Planning: Generating Precise and Scalable Datasets for Step-Level Rewards

作者: Raffaele Pisano, Roberto Navigli

分类: cs.CL

发布日期: 2026-04-20

备注: Accepted to ACL 2026 (main conference)

💡 一句话要点

提出基于规划领域定义语言的流程奖励模型数据集生成方法，提升LLM推理能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 流程奖励模型 大型语言模型 规划领域定义语言 数据集生成 推理能力

📋 核心要点

现有流程奖励模型数据集构建成本高，易出错，且集中于数学领域，限制了其应用。
利用规划领域定义语言（PDDL）生成大规模、多领域的推理步骤数据，用于训练流程奖励模型。
实验表明，使用PDDL数据增强PRM训练集，可显著提升LLM在数学和非数学推理任务上的性能。

📝 摘要（中文）

流程奖励模型(PRMs)已成为评估大型语言模型(LLM)推理过程的有力工具，尤其是在LLM的思维链(CoT)中包含错误但最终答案正确的情况下。然而，现有的PRM数据集构建成本高昂，容易出现标注错误，并且主要局限于数学领域。本研究提出了一种新颖且可扩展的PRM数据集生成方法，该方法基于规划领域定义语言(PDDL)表达的逻辑规划问题。通过这种方法，我们生成了一个包含约一百万个推理步骤的语料库，涵盖了各种PDDL领域，并使用它来训练PRM。实验结果表明，使用PDDL派生的数据增强广泛使用的PRM训练数据集，可以显著提高数学和非数学推理能力，这已在多个基准测试中得到证明。这些发现表明，规划问题构成了一种可扩展且有效的资源，可以为PRM生成稳健、精确和细粒度的训练数据，超越了主导该领域的经典数学来源。

🔬 方法详解

问题定义：现有流程奖励模型（PRM）数据集主要集中在数学领域，且人工标注成本高昂，容易引入标注错误。这限制了PRM在更广泛领域的应用，并且阻碍了LLM推理能力的提升。论文旨在解决PRM数据集规模小、领域单一、标注成本高等问题。

核心思路：论文的核心思路是利用规划领域定义语言（PDDL）自动生成大规模、多领域的推理步骤数据。 PDDL是一种用于描述规划问题的标准语言，可以精确地定义状态、动作和目标。通过自动规划器，可以生成从初始状态到目标状态的行动序列，这些行动序列可以作为LLM推理的中间步骤，并用于训练PRM。

技术框架：该方法主要包含以下几个阶段：1) 使用PDDL定义不同领域的规划问题；2) 使用自动规划器生成从初始状态到目标状态的行动序列；3) 将行动序列转换为自然语言形式，作为LLM推理的中间步骤；4) 使用生成的推理步骤数据训练PRM。整体流程是从PDDL问题定义开始，通过规划器生成轨迹，再将轨迹转化为自然语言，最后用于训练奖励模型。

关键创新：该方法最重要的创新点在于利用PDDL自动生成大规模、多领域的推理步骤数据，从而避免了人工标注的成本和错误。与现有方法相比，该方法可以生成更精确、更细粒度的训练数据，并且可以扩展到更广泛的领域。此外，该方法提供了一种通用的框架，可以用于生成各种类型的推理数据。

关键设计：论文的关键设计包括：1) PDDL问题的选择和定义，需要选择具有代表性的、能够反映不同推理能力的规划问题；2) 自动规划器的选择，需要选择能够高效生成高质量行动序列的规划器；3) 自然语言转换策略，需要设计合理的转换策略，将行动序列转换为易于理解的自然语言形式；4) 奖励模型的训练，需要选择合适的奖励函数和训练算法，以获得高性能的奖励模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用PDDL派生的数据增强PRM训练数据集，在数学和非数学推理任务上均取得了显著的性能提升。具体而言，在多个基准测试中，使用该方法训练的PRM能够更准确地评估LLM的推理步骤，从而提高LLM的最终答案准确率。这表明该方法能够有效地生成高质量的PRM训练数据。

🎯 应用场景

该研究成果可应用于提升大型语言模型在各种领域的推理能力，例如智能客服、自动代码生成、智能规划等。通过提供更精确的步骤级反馈，可以帮助LLM更好地理解问题、规划解决方案，并最终提高任务完成的质量和效率。此外，该方法还可以用于评估LLM的推理过程，发现潜在的错误和不足。

📄 摘要（原文）

Process Reward Models (PRMs) have emerged as a powerful tool for providing step-level feedback when evaluating the reasoning of Large Language Models (LLMs), which frequently produce chains of thought (CoTs) containing errors even when the final answer is correct. However, existing PRM datasets remain expensive to construct, prone to annotation errors, and predominantly limited to the mathematical domain. This work introduces a novel and scalable approach to PRM dataset generation based on planning logical problems expressed in the Planning Domain Definition Language (PDDL). Using this method, we generate a corpus of approximately one million reasoning steps across various PDDL domains and use it to train PRMs. Experimental results show that augmenting widely-used PRM training datasets with PDDL-derived data yields substantial improvements in both mathematical and non-mathematical reasoning, as demonstrated across multiple benchmarks. These findings indicate that planning problems constitute a scalable and effective resource for generating robust, precise, and fine-grained training data for PRMs, going beyond the classical mathematical sources that dominate this field.

Process Reward Models Meet Planning: Generating Precise and Scalable Datasets for Step-Level Rewards

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理