STaR: Towards Effective and Stable Table Reasoning via Slow-Thinking Large Language Models

作者: Huajian Zhang, Mingyue Cheng, Yucong Luo, Xiaoyu Tao

分类: cs.AI

发布日期: 2025-11-14 (更新: 2026-01-26)

💡 一句话要点

STaR：通过慢思考大型语言模型实现有效且稳定的表格推理

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 表格推理 大型语言模型 强化学习 不确定性量化 多步推理

📋 核心要点

现有表格推理方法缺乏深度和显式的多步推理，过度依赖隐式的语言模型理解。
STaR通过两阶段训练框架（SFT和RFT）和轨迹级不确定性量化，提升推理的有效性和稳定性。
STaR-8B在领域内基准测试中达到SOTA，并在领域外数据集上展现出强大的泛化能力。

📝 摘要（中文）

本文提出了一种名为STaR的新型慢思考模型，旨在实现有效且稳定的表格推理。现有方法在表格推理中存在深度不足和缺乏显式多步推理的问题，并且推理过程不稳定，主要原因是模型的不确定性。为了实现有效的多步推理，本文设计了一个两阶段训练框架，包括监督微调（SFT）预热和强化微调（RFT）。在SFT阶段，通过自动自我验证构建高质量数据集。在RFT阶段，引入难度感知的强化学习机制来进一步增强推理能力。此外，为了提高推理稳定性，引入了轨迹级不确定性量化，将token级置信度与答案级一致性融合，从而选择更好的推理轨迹。大量实验表明，STaR-8B在领域内基准测试中实现了最先进的性能，并对领域外数据集表现出强大的泛化能力，突出了其在提高表格推理的有效性和稳定性方面的潜力。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在表格推理中存在的两个主要问题：一是推理过程缺乏深度和显式的多步推理，导致推理效果不佳；二是推理过程不稳定，容易受到模型不确定性的影响，导致结果不一致。现有方法通常依赖于隐式的语言模型理解，缺乏明确的推理步骤，并且没有有效地量化和利用模型的不确定性。

核心思路：论文的核心思路是通过“慢思考”的方式，让模型逐步推理，并结合强化学习和不确定性量化来提高推理的有效性和稳定性。具体来说，通过两阶段训练框架，首先使用监督微调（SFT）预热模型，然后使用强化微调（RFT）进一步提升推理能力。同时，引入轨迹级不确定性量化，选择更可靠的推理路径。

技术框架：STaR的整体框架包含两个主要阶段：监督微调（SFT）和强化微调（RFT）。在SFT阶段，首先构建一个高质量的表格推理数据集，然后使用该数据集对大型语言模型进行微调。在RFT阶段，使用强化学习来进一步优化模型的推理策略，并引入难度感知的奖励函数来提高模型的学习效率。此外，在推理过程中，使用轨迹级不确定性量化来选择更可靠的推理路径。

关键创新：论文的关键创新在于以下几个方面：1) 提出了一个两阶段训练框架，结合了监督学习和强化学习的优点，能够有效地提高模型的推理能力。2) 引入了难度感知的强化学习机制，能够更好地利用训练数据，提高模型的学习效率。3) 提出了轨迹级不确定性量化方法，能够有效地提高推理的稳定性。

关键设计：在SFT阶段，使用自动自我验证的方法来构建高质量的数据集。在RFT阶段，使用策略梯度算法来优化模型的推理策略，并设计了一个难度感知的奖励函数，该奖励函数根据推理的难度和正确性来调整奖励的大小。轨迹级不确定性量化通过融合token级别的置信度和答案级别的一致性来实现，具体方法未知。

🖼️ 关键图片

📊 实验亮点

STaR-8B模型在领域内基准测试中取得了最先进的性能，并在领域外数据集上表现出强大的泛化能力。具体性能数据和对比基线未知，但论文强调了其在提高表格推理的有效性和稳定性方面的显著优势。该模型在不同数据集上的具体提升幅度未知。

🎯 应用场景

该研究成果可应用于智能问答系统、数据分析工具、金融风险评估、医疗诊断辅助等领域。通过提升表格数据的理解和推理能力，可以帮助用户更有效地从表格中提取信息、做出决策，并提高相关应用的智能化水平。未来，该技术有望进一步扩展到更复杂的表格数据分析和知识发现任务中。

📄 摘要（原文）

Table reasoning with large language models (LLMs) plays a critical role in building intelligent systems capable of understanding and analyzing tabular data. Despite recent progress, existing methods still face key limitations: their reasoning processes lacks depth and explicit multi-step reasoning, often relying solely on implicit language model understanding. In addition, their reasoning processes suffer from instability, primarily caused by model uncertainty. In this work, we propose STaR, a novel slow-thinking model that can achieve effective and stable table reasoning. To enable effective multi-step reasoning, we design a two-stage training framework consisting of supervised fine-tuning (SFT) warm-up followed by reinforced fine-tuning (RFT). Specifically, in the SFT stage, we construct a high-quality dataset through automatic self-verification. In the RFT stage, we introduce a difficulty-aware reinforcement learning mechanism to further enhance reasoning capabilities. Furthermore, to improve reasoning stability, we introduce trajectory-level uncertainty quantification, which fuses token-level confidence with answer-level consistency, enabling the selection of better reasoning trajectories. Extensive experiments demonstrate that STaR-8B achieves state-of-the-art performance on in-domain benchmarks and exhibits strong generalization to out-of-domain datasets, highlighting its potential for enhancing both effectiveness and stability in table reasoning.

STaR: Towards Effective and Stable Table Reasoning via Slow-Thinking Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理