Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward

📄 arXiv: 2601.05073v1 📥 PDF

作者: Jianlong Chen, Daocheng Fu, Shengze Xu, Jiawei Chen, Yuan Feng, Yue Yang, Junchi Yan, Hongyuan Zha, Renqiu Xia

分类: cs.LG

发布日期: 2026-01-08


💡 一句话要点

提出SGVR框架,通过子目标验证奖励提升MLLM几何推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 几何推理 多模态大语言模型 子目标验证 强化学习 形式验证 奖励函数 GeoGoal基准

📋 核心要点

  1. 现有的多模态大语言模型在几何推理中面临挑战,因为仅依赖最终结果的监督信号无法有效区分正确的推理过程和偶然的正确答案。
  2. 论文提出Sub-Goal Verifiable Reward (SGVR)框架,通过将复杂的推理过程分解为可验证的子目标,并基于子目标的完成情况提供奖励,从而引导模型学习。
  3. 实验结果表明,SGVR框架不仅显著提升了几何推理的性能,还在通用数学和推理任务上展现出良好的泛化能力。

📝 摘要(中文)

多模态大型语言模型(MLLMs)在复杂的几何推理方面表现不佳,主要是因为基于结果的“黑盒”监督无法区分偶然的猜测和严谨的推导。为了解决这个问题,本文提出了一种范式转变,即转向子目标级别的评估和学习。首先,构建了GeoGoal基准,该基准通过严格的形式验证数据引擎合成,将抽象证明转换为可验证的数值子目标。这种结构揭示了推理质量和结果准确性之间的关键差异。在此基础上,提出了子目标可验证奖励(SGVR)框架,该框架用基于骨架率的密集奖励取代了稀疏信号。实验表明,SGVR不仅提高了几何性能(+9.7%),而且表现出强大的泛化能力,将收益转移到一般数学(+8.0%)和其他一般推理任务(+2.8%),证明了其在不同领域的广泛适用性。

🔬 方法详解

问题定义:多模态大语言模型(MLLMs)在几何推理任务中表现不佳。现有的训练方法通常只关注最终结果的正确性,而忽略了推理过程的质量。这种基于结果的监督信号是稀疏的,并且无法区分模型是通过正确的推理步骤得到答案,还是仅仅通过猜测或记忆得到答案。因此,模型难以学习到真正的几何推理能力。

核心思路:论文的核心思路是将几何推理问题分解为一系列可验证的子目标。通过显式地监督模型在每个子目标上的表现,可以提供更密集、更具信息量的奖励信号,从而引导模型学习正确的推理过程。这种方法类似于人类解决几何问题时,逐步推导并验证每个步骤的正确性。

技术框架:SGVR框架主要包含以下几个关键组成部分:1) GeoGoal基准数据集:该数据集包含大量的几何问题,每个问题都附带有详细的证明过程,并将证明过程分解为一系列可验证的数值子目标。2) 子目标验证模块:该模块负责验证模型在每个子目标上的表现是否正确。3) 奖励函数:该函数根据模型在每个子目标上的表现,给予相应的奖励。奖励函数的设计基于Skeleton Rate,即模型正确完成的子目标数量占总子目标数量的比例。4) 模型训练:使用强化学习算法,根据奖励信号训练模型,使其能够逐步完成几何推理任务。

关键创新:SGVR框架最重要的创新点在于引入了子目标级别的监督信号。与传统的基于结果的监督信号相比,子目标级别的监督信号更加密集、更具信息量,并且能够更好地反映模型的推理过程。此外,GeoGoal基准数据集的构建也为研究几何推理问题提供了一个新的平台。

关键设计:GeoGoal数据集通过形式验证数据引擎合成,确保了子目标的正确性和可验证性。奖励函数的设计采用了Skeleton Rate,鼓励模型尽可能多地完成子目标。具体的网络结构和训练算法的选择则可以根据具体的任务和模型进行调整。论文中使用了标准的Transformer架构作为MLLM的基础模型。

📊 实验亮点

实验结果表明,SGVR框架在GeoGoal基准数据集上取得了显著的性能提升,几何推理准确率提高了9.7%。此外,SGVR框架还展现出良好的泛化能力,在通用数学和推理任务上分别提高了8.0%和2.8%。这些结果表明,SGVR框架不仅能够提升几何推理能力,还能够促进模型学习更通用的推理能力。

🎯 应用场景

该研究成果可应用于智能教育、机器人导航、CAD设计等领域。通过提升机器的几何推理能力,可以开发更智能的教育辅导系统,帮助学生理解几何概念;可以提高机器人在复杂环境中的导航能力;还可以辅助设计师进行CAD设计,提高设计效率。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) struggle with complex geometric reasoning, largely because "black box" outcome-based supervision fails to distinguish between lucky guesses and rigorous deduction. To address this, we introduce a paradigm shift towards subgoal-level evaluation and learning. We first construct GeoGoal, a benchmark synthesized via a rigorous formal verification data engine, which converts abstract proofs into verifiable numeric subgoals. This structure reveals a critical divergence between reasoning quality and outcome accuracy. Leveraging this, we propose the Sub-Goal Verifiable Reward (SGVR) framework, which replaces sparse signals with dense rewards based on the Skeleton Rate. Experiments demonstrate that SGVR not only enhances geometric performance (+9.7%) but also exhibits strong generalization, transferring gains to general math (+8.0%) and other general reasoning tasks (+2.8%), demonstrating broad applicability across diverse domains.