STaR: Towards Effective and Stable Table Reasoning via Slow-Thinking Large Language Models
作者: Huajian Zhang, Mingyue Cheng, Yucong Luo, Xiaoyu Tao
分类: cs.AI
发布日期: 2025-11-14 (更新: 2026-01-26)
💡 一句话要点
STaR:通过慢思考大型语言模型实现有效且稳定的表格推理
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格推理 大型语言模型 强化学习 不确定性量化 多步推理
📋 核心要点
- 现有表格推理方法缺乏深度和显式的多步推理,过度依赖隐式的语言模型理解。
- STaR通过两阶段训练框架(SFT和RFT)和轨迹级不确定性量化,提升推理的有效性和稳定性。
- STaR-8B在领域内基准测试中达到SOTA,并在领域外数据集上展现出强大的泛化能力。
📝 摘要(中文)
本文提出了一种名为STaR的新型慢思考模型,旨在实现有效且稳定的表格推理。现有方法在表格推理中存在深度不足和缺乏显式多步推理的问题,并且推理过程不稳定,主要原因是模型的不确定性。为了实现有效的多步推理,本文设计了一个两阶段训练框架,包括监督微调(SFT)预热和强化微调(RFT)。在SFT阶段,通过自动自我验证构建高质量数据集。在RFT阶段,引入难度感知的强化学习机制来进一步增强推理能力。此外,为了提高推理稳定性,引入了轨迹级不确定性量化,将token级置信度与答案级一致性融合,从而选择更好的推理轨迹。大量实验表明,STaR-8B在领域内基准测试中实现了最先进的性能,并对领域外数据集表现出强大的泛化能力,突出了其在提高表格推理的有效性和稳定性方面的潜力。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在表格推理中存在的两个主要问题:一是推理过程缺乏深度和显式的多步推理,导致推理效果不佳;二是推理过程不稳定,容易受到模型不确定性的影响,导致结果不一致。现有方法通常依赖于隐式的语言模型理解,缺乏明确的推理步骤,并且没有有效地量化和利用模型的不确定性。
核心思路:论文的核心思路是通过“慢思考”的方式,让模型逐步推理,并结合强化学习和不确定性量化来提高推理的有效性和稳定性。具体来说,通过两阶段训练框架,首先使用监督微调(SFT)预热模型,然后使用强化微调(RFT)进一步提升推理能力。同时,引入轨迹级不确定性量化,选择更可靠的推理路径。
技术框架:STaR的整体框架包含两个主要阶段:监督微调(SFT)和强化微调(RFT)。在SFT阶段,首先构建一个高质量的表格推理数据集,然后使用该数据集对大型语言模型进行微调。在RFT阶段,使用强化学习来进一步优化模型的推理策略,并引入难度感知的奖励函数来提高模型的学习效率。此外,在推理过程中,使用轨迹级不确定性量化来选择更可靠的推理路径。
关键创新:论文的关键创新在于以下几个方面:1) 提出了一个两阶段训练框架,结合了监督学习和强化学习的优点,能够有效地提高模型的推理能力。2) 引入了难度感知的强化学习机制,能够更好地利用训练数据,提高模型的学习效率。3) 提出了轨迹级不确定性量化方法,能够有效地提高推理的稳定性。
关键设计:在SFT阶段,使用自动自我验证的方法来构建高质量的数据集。在RFT阶段,使用策略梯度算法来优化模型的推理策略,并设计了一个难度感知的奖励函数,该奖励函数根据推理的难度和正确性来调整奖励的大小。轨迹级不确定性量化通过融合token级别的置信度和答案级别的一致性来实现,具体方法未知。
🖼️ 关键图片
📊 实验亮点
STaR-8B模型在领域内基准测试中取得了最先进的性能,并在领域外数据集上表现出强大的泛化能力。具体性能数据和对比基线未知,但论文强调了其在提高表格推理的有效性和稳定性方面的显著优势。该模型在不同数据集上的具体提升幅度未知。
🎯 应用场景
该研究成果可应用于智能问答系统、数据分析工具、金融风险评估、医疗诊断辅助等领域。通过提升表格数据的理解和推理能力,可以帮助用户更有效地从表格中提取信息、做出决策,并提高相关应用的智能化水平。未来,该技术有望进一步扩展到更复杂的表格数据分析和知识发现任务中。
📄 摘要(原文)
Table reasoning with large language models (LLMs) plays a critical role in building intelligent systems capable of understanding and analyzing tabular data. Despite recent progress, existing methods still face key limitations: their reasoning processes lacks depth and explicit multi-step reasoning, often relying solely on implicit language model understanding. In addition, their reasoning processes suffer from instability, primarily caused by model uncertainty. In this work, we propose STaR, a novel slow-thinking model that can achieve effective and stable table reasoning. To enable effective multi-step reasoning, we design a two-stage training framework consisting of supervised fine-tuning (SFT) warm-up followed by reinforced fine-tuning (RFT). Specifically, in the SFT stage, we construct a high-quality dataset through automatic self-verification. In the RFT stage, we introduce a difficulty-aware reinforcement learning mechanism to further enhance reasoning capabilities. Furthermore, to improve reasoning stability, we introduce trajectory-level uncertainty quantification, which fuses token-level confidence with answer-level consistency, enabling the selection of better reasoning trajectories. Extensive experiments demonstrate that STaR-8B achieves state-of-the-art performance on in-domain benchmarks and exhibits strong generalization to out-of-domain datasets, highlighting its potential for enhancing both effectiveness and stability in table reasoning.