TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

作者: Jiaru Zou, Soumya Roy, Vinay Kumar Verma, Ziyi Wang, David Wipf, Pan Lu, Sumit Negi, James Zou, Jingrui He

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-10-07

💡 一句话要点

提出TaTToo，一种工具驱动的表格推理PRM，提升测试时表格推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 表格推理 过程奖励模型 工具驱动 强化学习 测试时扩展

📋 核心要点

现有过程奖励模型(PRM)在表格推理中，难以处理子表检索和模式交互等表格特定操作，导致性能瓶颈。
TaTToo通过显式推理表格推理步骤，并集成工具验证来提供精确的奖励监督，从而解决上述问题。
实验表明，TaTToo在多个表格推理基准测试中显著提升下游策略LRM的性能，且参数量更少，泛化性更强。

📝 摘要（中文）

过程奖励模型(PRM)已成为增强大型推理模型(LRM)推理能力的强大框架，尤其是在测试时扩展(TTS)方面。然而，它们在表格推理领域监督LRM的潜力尚未被充分探索。通过详细的实证分析，我们发现现有的PRM虽然被广泛用于监督纯文本推理步骤，但在表格特定操作（如子表检索和模式交互）方面存在困难，导致关键的性能瓶颈。为了解决这个限制，我们提出了TaTToo，一种新颖的表格驱动的PRM框架，它(i)显式地推理表格推理步骤，并且(ii)集成基于工具的验证以提供精确的奖励监督。具体而言，我们首先设计了一个可扩展的数据管理流程，通过将表格验证原理与基于工具的执行集成，构建超过6万个高质量的步骤级注释。基于收集的数据，我们采用双阶段范式训练TaTToo：冷启动监督微调以捕获工具使用推理模式，然后使用工具驱动的奖励塑造进行强化学习，以使我们的模型与基于表格的验证对齐。我们对新设计的PRM所带来的策略改进进行了全面评估。在涵盖数值推理、事实核查和数据分析的5个具有挑战性的表格推理基准测试中，TaTToo在推理时将下游策略LRM提高了30.9%，超越了强大的PRM基线（如Qwen-2.5-Math-PRM-72B），且仅使用8B参数，并展示了在各种TTS策略中的强大泛化能力。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在表格推理任务中，由于缺乏对表格结构和工具使用的有效监督，导致推理能力不足的问题。现有PRM主要针对文本推理设计，难以处理表格特有的操作，如子表检索和模式交互，限制了其在表格推理任务中的应用。

核心思路：论文的核心思路是设计一种表格驱动的PRM框架TaTToo，该框架能够显式地推理表格推理步骤，并利用工具执行结果进行验证，从而为LRM提供更精确的奖励监督。通过工具的使用，模型可以学习到更有效的表格操作和推理策略。

技术框架：TaTToo的整体框架包含以下几个主要阶段：1) 数据收集：构建包含表格验证原理和工具执行结果的大规模步骤级注释数据集。2) 模型训练：采用双阶段训练范式，首先进行冷启动监督微调，学习工具使用推理模式；然后进行强化学习，利用工具驱动的奖励塑造，使模型与表格验证对齐。3) 推理：利用训练好的TaTToo作为PRM，指导下游LRM进行表格推理。

关键创新：TaTToo的关键创新在于：1) 提出了表格驱动的PRM框架，能够显式地推理表格推理步骤。2) 集成了工具验证，利用工具执行结果提供精确的奖励监督。3) 设计了双阶段训练范式，有效学习工具使用推理模式，并与表格验证对齐。与现有PRM相比，TaTToo更关注表格结构和工具的使用，能够更好地指导LRM进行表格推理。

关键设计：在数据收集方面，论文设计了一个可扩展的数据管理流程，构建了超过6万个高质量的步骤级注释。在模型训练方面，采用了冷启动监督微调和强化学习相结合的策略，并设计了工具驱动的奖励函数，以鼓励模型学习正确的工具使用方式。具体的损失函数和网络结构细节在论文中进行了详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

TaTToo在5个表格推理基准测试中，将下游策略LRM的性能平均提升了30.9%。在参数量仅为8B的情况下，TaTToo超越了参数量更大的Qwen-2.5-Math-PRM-72B等基线模型，展示了其卓越的性能和效率。此外，TaTToo在不同的TTS策略中表现出强大的泛化能力。

🎯 应用场景

TaTToo的研究成果可应用于金融分析、数据报告生成、智能客服等领域，提升机器在处理表格数据时的推理能力和准确性。通过工具驱动的验证，可以提高模型的可信度和可靠性，为决策提供更可靠的支持。未来，该方法有望扩展到更复杂的表格推理任务和更广泛的应用场景。

📄 摘要（原文）

Process Reward Models (PRMs) have recently emerged as a powerful framework for enhancing the reasoning capabilities of large reasoning models (LRMs), particularly in the context of test-time scaling (TTS). However, their potential for supervising LRMs on tabular reasoning domains remains underexplored. Through detailed empirical analyses, we identify that existing PRMs, though widely adopted for supervising text-only reasoning steps, struggle with table-specific operations such as sub-table retrieval and schema interaction, leading to critical performance bottlenecks. To address this limitation, we propose TaTToo, a novel table-grounded PRM framework that (i) reasons explicitly over tabular reasoning steps and (ii) integrates tool-based verification to provide precise reward supervision. Concretely, we first design a scalable data curation pipeline that constructs over 60k high-quality step-level annotations by integrating table verification rationales with tool-based executions. Building on the collected data, we train TaTToo with a dual-stage paradigm: cold-start supervised fine-tuning to capture tool-use reasoning patterns, followed by reinforcement learning with tool-grounded reward shaping to align our model with table-based verification. We provide a comprehensive evaluation of the policy improvement induced by our newly designed PRM. Across 5 challenging tabular reasoning benchmarks covering numerical reasoning, fact-checking, and data analysis, TaTToo improves downstream policy LRMs by 30.9% at inference, surpasses strong PRM baselines such as Qwen-2.5-Math-PRM-72B with only 8B parameters, and demonstrates strong generalizability across diverse TTS strategies.

TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理