FABSVer: Faster Training and Better Self-Verification for LLM Mathematical Reasoning
作者: Haihui Pan, Junwei Bao, Hongfei Jiang, Yang Song
分类: cs.CL
发布日期: 2026-05-27
💡 一句话要点
FABSVer:加速LLM数学推理训练并提升自验证能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数学推理 自验证 强化学习 动态参考模型更新
📋 核心要点
- 现有LLM自验证方法将解题和验证分离,训练开销大,效率低。
- FABSVer融合解题和验证任务,单次生成完成,降低训练成本,联合优化能力。
- 引入动态参考模型更新(DRMU)机制,突破奖励瓶颈,持续提升模型性能。
📝 摘要(中文)
大型语言模型在数学推理方面取得了显著进展,但其自身解决方案的正确性判断仍然不可靠。现有的自验证方法通常将解题生成和验证视为两个独立的任务,导致训练时间大幅增加。本文提出了FABSVer,它将这两个任务融合到单个生成过程中,显著减少了训练开销,同时联合优化了这两种能力。进一步地,我们从理论和经验上都识别出一个收敛瓶颈:随着训练的进行,由于策略受到固定参考模型的约束,奖励达到平台期。为了克服这个问题,我们引入了动态参考模型更新(DRMU),提高了奖励上限,实现了奖励的持续增长。在数学基准测试上的大量实验表明,FABSVer在三种模型规模上实现了卓越的自验证和推理性能,同时仅需现有方法51%--71%的训练时间。分析进一步揭示了模型获取自验证能力的不同学习阶段,并且验证和答案奖励之间的差距随着模型规模的增加而显著缩小。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在数学推理方面表现出一定的能力,但它们判断自身答案正确性的能力仍然不足。现有的自验证方法通常将解题生成和验证过程视为两个独立的任务,这导致了训练时间的显著增加,效率低下。因此,如何提高LLM自验证的准确性,同时降低训练成本,是一个亟待解决的问题。
核心思路:FABSVer的核心思路是将解题生成和自验证两个任务融合到一个生成过程中。通过联合优化解题和验证能力,模型可以在生成答案的同时评估其正确性,从而避免了传统方法中需要单独进行验证步骤的额外开销。此外,通过动态更新参考模型,突破了奖励瓶颈,使得模型能够持续学习和提升。
技术框架:FABSVer的技术框架主要包含两个关键部分:融合的解题与验证生成过程,以及动态参考模型更新(DRMU)。模型首先通过一个融合的生成过程,同时生成答案和验证结果。然后,利用强化学习方法对模型进行训练,其中奖励函数的设计考虑了解题的正确性和验证的准确性。DRMU机制则在训练过程中动态调整参考模型,以克服奖励饱和问题。
关键创新:FABSVer的关键创新在于两个方面:一是将解题和验证融合到单个生成过程中,显著降低了训练开销;二是引入了动态参考模型更新(DRMU)机制,解决了训练过程中的奖励瓶颈问题,使得模型能够持续学习和提升。与现有方法相比,FABSVer能够以更低的训练成本实现更高的自验证和推理性能。
关键设计:在融合的生成过程中,模型需要同时预测答案和验证结果。这可以通过在模型的输出层添加一个额外的分支来实现,该分支用于预测答案的正确性。奖励函数的设计需要平衡解题的正确性和验证的准确性,例如,可以采用加权平均的方式。DRMU的具体实现方式可以是周期性地更新参考模型,或者根据训练的进展动态调整更新频率。具体的参数设置需要根据实验结果进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FABSVer在数学基准测试中取得了显著的性能提升,在三种模型规模上均优于现有方法。更重要的是,FABSVer仅需现有方法51%--71%的训练时间,大大降低了训练成本。此外,实验分析还揭示了模型学习自验证能力的不同阶段,以及模型规模对验证和答案奖励差距的影响。
🎯 应用场景
FABSVer可应用于各种需要LLM进行数学推理的场景,例如自动化数学题解答、科学计算、金融分析等。通过提高LLM的自验证能力,可以减少错误答案的产生,提高系统的可靠性和准确性,从而在实际应用中发挥更大的价值。未来,该方法还可以扩展到其他需要自我评估的任务中,例如代码生成、文本摘要等。
📄 摘要(原文)
While large language models have made significant progress in mathematical reasoning, they remain unreliable at judging the correctness of their own solutions. Existing approaches that equip models with self-verification typically treat solution generation and verification as two separate tasks, leading to substantially increased training time. In this paper, we propose FABSVer, which fuses these two tasks into a single generation pass, dramatically reducing training overhead while jointly optimizing both capabilities. We further identify a convergence bottleneck both theoretically and empirically: as training progresses, the reward reaches a plateau because the policy is constrained by a fixed reference model. To overcome this, we introduce Dynamic Reference Model Update (DRMU), which raises the reward ceiling and enables sustained reward growth. Extensive experiments on math benchmarks demonstrate that FABSVer achieves superior self-verification and reasoning performance across three model scales, while requiring only 51%--71% of the training time of existing methods. Analysis further reveals distinct learning phases in how models acquire self-verification, and that the gap between verify and answer rewards shrinks noticeably as model size increases.