Table-R1: Inference-Time Scaling for Table Reasoning

作者: Zheyuan Yang, Lyuhao Chen, Arman Cohan, Yilun Zhao

分类: cs.CL

发布日期: 2025-05-29 (更新: 2025-09-26)

备注: EMNLP 2025

💡 一句话要点

Table-R1：探索表格推理任务的推理时缩放技术，提升小模型性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 表格推理 推理时缩放 知识蒸馏 强化学习 可验证奖励

📋 核心要点

现有表格推理模型计算成本高昂，难以在资源受限的环境中部署，推理时缩放能力不足。
论文提出两种后训练策略：基于DeepSeek-R1推理轨迹的知识蒸馏和基于可验证奖励的强化学习，实现推理时性能提升。
实验表明，仅使用70亿参数的Table-R1-Zero模型，在多个表格推理任务上达到甚至超过GPT-4.1和DeepSeek-R1的性能。

📝 摘要（中文）

本文首次探索了表格推理任务中的推理时缩放技术。我们开发并评估了两种后训练策略来实现推理时缩放：从前沿模型推理轨迹中进行知识蒸馏，以及使用可验证奖励的强化学习（RLVR）。对于知识蒸馏，我们引入了一个由DeepSeek-R1生成的大规模推理轨迹数据集，并使用它来微调LLM，得到Table-R1-SFT模型。对于RLVR，我们提出了特定于任务的可验证奖励函数，并应用GRPO算法来获得Table-R1-Zero模型。我们在各种表格推理任务（包括简答题、事实核查和自由问答）中评估了Table-R1系列模型。值得注意的是，Table-R1-Zero模型在使用仅70亿参数的LLM的情况下，性能与GPT-4.1和DeepSeek-R1相匹配甚至超过。它还展示了对领域外数据集的强大泛化能力。大量的消融和定性分析揭示了指令调优、模型架构选择和跨任务泛化的好处，以及在RL训练期间出现的关键表格推理技能。

🔬 方法详解

问题定义：论文旨在解决表格推理任务中，现有大型语言模型（LLM）计算成本高、推理速度慢，难以在资源受限环境下部署的问题。现有方法通常依赖于模型规模的扩大来提升性能，但忽略了推理效率，缺乏推理时缩放的能力。

核心思路：论文的核心思路是通过后训练技术，使小规模LLM能够学习到大型模型的推理能力，从而在保证性能的同时，降低计算成本，实现推理时缩放。具体而言，论文探索了知识蒸馏和强化学习两种方法，分别从不同的角度提升小模型的推理能力。

技术框架：论文的技术框架主要包含两个分支：基于知识蒸馏的Table-R1-SFT模型和基于强化学习的Table-R1-Zero模型。

Table-R1-SFT：首先利用DeepSeek-R1生成大规模的推理轨迹数据集，然后使用该数据集对LLM进行微调，使其学习到DeepSeek-R1的推理过程。
Table-R1-Zero：设计特定于表格推理任务的可验证奖励函数，并使用GRPO（Gradient Ratio Policy Optimization）算法对LLM进行强化学习，使其能够根据奖励函数自主学习推理策略。

关键创新：论文的关键创新在于：

首次探索了表格推理任务中的推理时缩放技术。
提出了基于推理轨迹的知识蒸馏方法，有效利用了大型模型的推理过程信息。
设计了可验证的奖励函数，引导强化学习过程，提升了模型的推理能力和泛化能力。

关键设计：

推理轨迹数据集：使用DeepSeek-R1生成，包含输入表格、问题以及DeepSeek-R1的推理步骤。
可验证奖励函数：针对不同的表格推理任务，设计了不同的奖励函数，例如，对于事实核查任务，奖励函数会根据模型输出的答案是否正确进行奖励或惩罚。
GRPO算法：使用GRPO算法进行强化学习，该算法能够有效地平衡探索和利用，避免模型陷入局部最优。

🖼️ 关键图片

📊 实验亮点

Table-R1-Zero模型在仅使用70亿参数的情况下，在多个表格推理任务上达到了与GPT-4.1和DeepSeek-R1相媲美的性能，甚至在某些任务上超过了它们。此外，Table-R1-Zero模型还展现出了强大的领域外泛化能力，在未见过的表格数据上也能保持较高的准确率。消融实验表明，指令调优和模型架构选择对性能提升有显著影响。

🎯 应用场景

该研究成果可应用于各种需要表格推理的场景，例如金融分析、医疗诊断、智能客服等。通过使用小规模模型，可以在资源受限的设备上实现高效的表格数据分析和决策支持，降低部署成本，提高响应速度。未来，该技术有望进一步推广到其他类型的推理任务中。

📄 摘要（原文）

In this work, we present the first study to explore inference-time scaling on table reasoning tasks. We develop and evaluate two post-training strategies to enable inference-time scaling: distillation from frontier model reasoning traces and reinforcement learning with verifiable rewards (RLVR). For distillation, we introduce a large-scale dataset of reasoning traces generated by DeepSeek-R1, which we use to fine-tune LLMs into the Table-R1-SFT model. For RLVR, we propose task-specific verifiable reward functions and apply the GRPO algorithm to obtain the Table-R1-Zero model. We evaluate our Table-R1-series models across diverse table reasoning tasks, including short-form QA, fact verification, and free-form QA. Notably, the Table-R1-Zero model matches or exceeds the performance of GPT-4.1 and DeepSeek-R1, while using only a 7B-parameter LLM. It also demonstrates strong generalization to out-of-domain datasets. Extensive ablation and qualitative analyses reveal the benefits of instruction tuning, model architecture choices, and cross-task generalization, as well as emergence of essential table reasoning skills during RL training.

Table-R1: Inference-Time Scaling for Table Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理