Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

📄 arXiv: 2604.24198v1 📥 PDF

作者: Zhisong Qiu, Shuofei Qiao, Kewei Xu, Yuqi Zhu, Lun Du, Ningyu Zhang, Huajun Chen

分类: cs.CL, cs.AI, cs.CE, cs.LG, cs.MA

发布日期: 2026-04-27

备注: Work in progress

🔗 代码/项目: GITHUB


💡 一句话要点

提出DataPRM,用于提升Agentic数据分析中LLM的推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 过程奖励模型 数据分析Agent 大型语言模型 强化学习 环境交互

📋 核心要点

  1. 通用过程奖励模型(PRM)在数据分析任务中表现不佳,无法有效识别静默错误和区分探索性行为。
  2. DataPRM通过主动与环境交互探测中间状态,并采用反思感知的三元奖励策略,来解决上述问题。
  3. 实验表明,DataPRM显著提升了下游LLM在数据分析任务中的性能,并在强化学习中优于结果奖励基线。

📝 摘要(中文)

过程奖励模型(PRM)在增强大型语言模型(LLM)在静态领域(如数学)中的推理能力方面取得了显著成功。然而,它们在动态数据分析任务中的潜力仍未被充分探索。本文首先进行了一项实证研究,揭示了通用领域的PRM难以监督数据分析代理。具体来说,它们无法检测到静默错误(即不会触发解释器异常但会产生错误结果的逻辑缺陷),并且会错误地惩罚探索性行为,将必要的试错探索误认为是不合理的失败。为了弥合这一差距,我们引入了DataPRM,一种新型的、环境感知的生成过程奖励模型,它可以(1)充当主动验证器,自主地与环境交互以探测中间执行状态并发现静默错误,以及(2)采用一种反思感知的、三元奖励策略,区分可纠正的基础错误和不可挽回的错误。我们设计了一个可扩展的pipeline,通过多样性驱动的轨迹生成和知识增强的步骤级注释,为DataPRM构建了超过8K的高质量训练实例。实验结果表明,使用Best-of-N推理,DataPRM在ScienceAgentBench上将下游策略LLM提高了7.21%,在DABStep上提高了11.28%。值得注意的是,DataPRM仅使用4B参数,就优于强大的基线,并且在各种测试时缩放策略中表现出强大的泛化能力。此外,将DataPRM集成到强化学习中,相比于结果奖励基线,取得了显著的收益,在DABench上达到了78.73%,在TableBench上达到了64.84%,验证了过程奖励监督的有效性。

🔬 方法详解

问题定义:现有通用过程奖励模型在监督数据分析Agent时存在不足,无法有效识别静默错误(逻辑错误但无异常),且会错误惩罚探索性行为,导致Agent难以学习有效的数据分析策略。这些问题阻碍了LLM在动态数据分析任务中的应用。

核心思路:DataPRM的核心思路是构建一个环境感知的过程奖励模型,该模型不仅能观察Agent的行动,还能主动与环境交互,探测中间执行状态,从而发现静默错误。此外,采用反思感知的奖励策略,区分可纠正的错误和不可挽回的错误,鼓励Agent进行探索性尝试。

技术框架:DataPRM的整体框架包括以下几个主要阶段:1) 多样性驱动的轨迹生成:生成多样化的数据分析轨迹,覆盖不同的执行路径和错误类型。2) 知识增强的步骤级注释:利用外部知识库和专家知识,对每个步骤进行细粒度的标注,包括正确性、错误类型等。3) DataPRM训练:使用标注数据训练DataPRM,使其能够准确评估Agent的每一步行动。4) 策略LLM训练:使用DataPRM作为奖励信号,训练下游策略LLM,使其能够生成更有效的数据分析策略。

关键创新:DataPRM的关键创新在于:1) 主动验证能力:DataPRM能够主动与环境交互,探测中间执行状态,从而发现静默错误,这是传统PRM所不具备的。2) 反思感知的奖励策略:DataPRM能够区分可纠正的错误和不可挽回的错误,并给予不同的奖励,从而鼓励Agent进行探索性尝试。

关键设计:DataPRM的关键设计包括:1) 环境交互机制:设计了一套与数据分析环境交互的API,允许DataPRM获取中间执行状态。2) 三元奖励函数:设计了一个三元奖励函数,分别奖励正确行为、惩罚可纠正的错误和惩罚不可挽回的错误。3) 知识增强的标注策略:利用外部知识库和专家知识,对步骤进行细粒度的标注,提高标注质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DataPRM在ScienceAgentBench上将下游策略LLM提高了7.21%,在DABStep上提高了11.28%。仅使用4B参数,DataPRM就优于强大的基线模型。在强化学习中,DataPRM在DABench上达到了78.73%,在TableBench上达到了64.84%,显著优于结果奖励基线。

🎯 应用场景

该研究成果可应用于各种需要智能数据分析的领域,例如科学研究、金融分析、商业智能等。通过提升Agent的数据分析能力,可以自动化数据探索、发现隐藏的模式和规律,并辅助决策。

📄 摘要(原文)

Process Reward Models (PRMs) have achieved remarkable success in augmenting the reasoning capabilities of Large Language Models (LLMs) within static domains such as mathematics. However, their potential in dynamic data analysis tasks remains underexplored. In this work, we first present a empirical study revealing that general-domain PRMs struggle to supervise data analysis agents. Specifically, they fail to detect silent errors, logical flaws that yield incorrect results without triggering interpreter exceptions, and erroneously penalize exploratory actions, mistaking necessary trial-and-error exploration for grounding failures. To bridge this gap, we introduce DataPRM, a novel environment-aware generative process reward model that (1) can serve as an active verifier, autonomously interacting with the environment to probe intermediate execution states and uncover silent errors, and (2) employs a reflection-aware ternary reward strategy that distinguishes between correctable grounding errors and irrecoverable mistakes. We design a scalable pipeline to construct over 8K high-quality training instances for DataPRM via diversity-driven trajectory generation and knowledge-augmented step-level annotation. Experimental results demonstrate that DataPRM improves downstream policy LLMs by 7.21% on ScienceAgentBench and 11.28% on DABStep using Best-of-N inference. Notably, with only 4B parameters, DataPRM outperforms strong baselines, and exhibits robust generalizability across diverse Test-Time Scaling strategies. Furthermore, integrating DataPRM into Reinforcement Learning yields substantial gains over outcome-reward baselines, achieving 78.73% on DABench and 64.84% on TableBench, validating the effectiveness of process reward supervision. Code is available at https://github.com/zjunlp/DataMind.