TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

📄 arXiv: 2510.06217v1 📥 PDF

作者: Jiaru Zou, Soumya Roy, Vinay Kumar Verma, Ziyi Wang, David Wipf, Pan Lu, Sumit Negi, James Zou, Jingrui He

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-10-07


💡 一句话要点

提出TaTToo,一种工具驱动的表格推理PRM,提升测试时表格推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 表格推理 过程奖励模型 工具驱动 强化学习 测试时扩展

📋 核心要点

  1. 现有过程奖励模型(PRM)在表格推理中,难以处理子表检索和模式交互等表格特定操作,导致性能瓶颈。
  2. TaTToo通过显式推理表格推理步骤,并集成工具验证来提供精确的奖励监督,从而解决上述问题。
  3. 实验表明,TaTToo在多个表格推理基准测试中显著提升下游策略LRM的性能,且参数量更少,泛化性更强。

📝 摘要(中文)

过程奖励模型(PRM)已成为增强大型推理模型(LRM)推理能力的强大框架,尤其是在测试时扩展(TTS)方面。然而,它们在表格推理领域监督LRM的潜力尚未被充分探索。通过详细的实证分析,我们发现现有的PRM虽然被广泛用于监督纯文本推理步骤,但在表格特定操作(如子表检索和模式交互)方面存在困难,导致关键的性能瓶颈。为了解决这个限制,我们提出了TaTToo,一种新颖的表格驱动的PRM框架,它(i)显式地推理表格推理步骤,并且(ii)集成基于工具的验证以提供精确的奖励监督。具体而言,我们首先设计了一个可扩展的数据管理流程,通过将表格验证原理与基于工具的执行集成,构建超过6万个高质量的步骤级注释。基于收集的数据,我们采用双阶段范式训练TaTToo:冷启动监督微调以捕获工具使用推理模式,然后使用工具驱动的奖励塑造进行强化学习,以使我们的模型与基于表格的验证对齐。我们对新设计的PRM所带来的策略改进进行了全面评估。在涵盖数值推理、事实核查和数据分析的5个具有挑战性的表格推理基准测试中,TaTToo在推理时将下游策略LRM提高了30.9%,超越了强大的PRM基线(如Qwen-2.5-Math-PRM-72B),且仅使用8B参数,并展示了在各种TTS策略中的强大泛化能力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在表格推理任务中,由于缺乏对表格结构和工具使用的有效监督,导致推理能力不足的问题。现有PRM主要针对文本推理设计,难以处理表格特有的操作,如子表检索和模式交互,限制了其在表格推理任务中的应用。

核心思路:论文的核心思路是设计一种表格驱动的PRM框架TaTToo,该框架能够显式地推理表格推理步骤,并利用工具执行结果进行验证,从而为LRM提供更精确的奖励监督。通过工具的使用,模型可以学习到更有效的表格操作和推理策略。

技术框架:TaTToo的整体框架包含以下几个主要阶段:1) 数据收集:构建包含表格验证原理和工具执行结果的大规模步骤级注释数据集。2) 模型训练:采用双阶段训练范式,首先进行冷启动监督微调,学习工具使用推理模式;然后进行强化学习,利用工具驱动的奖励塑造,使模型与表格验证对齐。3) 推理:利用训练好的TaTToo作为PRM,指导下游LRM进行表格推理。

关键创新:TaTToo的关键创新在于:1) 提出了表格驱动的PRM框架,能够显式地推理表格推理步骤。2) 集成了工具验证,利用工具执行结果提供精确的奖励监督。3) 设计了双阶段训练范式,有效学习工具使用推理模式,并与表格验证对齐。与现有PRM相比,TaTToo更关注表格结构和工具的使用,能够更好地指导LRM进行表格推理。

关键设计:在数据收集方面,论文设计了一个可扩展的数据管理流程,构建了超过6万个高质量的步骤级注释。在模型训练方面,采用了冷启动监督微调和强化学习相结合的策略,并设计了工具驱动的奖励函数,以鼓励模型学习正确的工具使用方式。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TaTToo在5个表格推理基准测试中,将下游策略LRM的性能平均提升了30.9%。在参数量仅为8B的情况下,TaTToo超越了参数量更大的Qwen-2.5-Math-PRM-72B等基线模型,展示了其卓越的性能和效率。此外,TaTToo在不同的TTS策略中表现出强大的泛化能力。

🎯 应用场景

TaTToo的研究成果可应用于金融分析、数据报告生成、智能客服等领域,提升机器在处理表格数据时的推理能力和准确性。通过工具驱动的验证,可以提高模型的可信度和可靠性,为决策提供更可靠的支持。未来,该方法有望扩展到更复杂的表格推理任务和更广泛的应用场景。

📄 摘要(原文)

Process Reward Models (PRMs) have recently emerged as a powerful framework for enhancing the reasoning capabilities of large reasoning models (LRMs), particularly in the context of test-time scaling (TTS). However, their potential for supervising LRMs on tabular reasoning domains remains underexplored. Through detailed empirical analyses, we identify that existing PRMs, though widely adopted for supervising text-only reasoning steps, struggle with table-specific operations such as sub-table retrieval and schema interaction, leading to critical performance bottlenecks. To address this limitation, we propose TaTToo, a novel table-grounded PRM framework that (i) reasons explicitly over tabular reasoning steps and (ii) integrates tool-based verification to provide precise reward supervision. Concretely, we first design a scalable data curation pipeline that constructs over 60k high-quality step-level annotations by integrating table verification rationales with tool-based executions. Building on the collected data, we train TaTToo with a dual-stage paradigm: cold-start supervised fine-tuning to capture tool-use reasoning patterns, followed by reinforcement learning with tool-grounded reward shaping to align our model with table-based verification. We provide a comprehensive evaluation of the policy improvement induced by our newly designed PRM. Across 5 challenging tabular reasoning benchmarks covering numerical reasoning, fact-checking, and data analysis, TaTToo improves downstream policy LRMs by 30.9% at inference, surpasses strong PRM baselines such as Qwen-2.5-Math-PRM-72B with only 8B parameters, and demonstrates strong generalizability across diverse TTS strategies.