Thinking with Constructions: A Benchmark and Policy Optimization for Visual-Text Interleaved Geometric Reasoning

📄 arXiv: 2603.18662v1 📥 PDF

作者: Haokun Zhao, Wanshi Xu, Haidong Yuan, Songjun Cao, Long Ma, Yanghua Xiao

分类: cs.AI

发布日期: 2026-03-19


💡 一句话要点

提出A2PO,通过强化学习提升MLLM在几何推理中利用辅助线的能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 几何推理 多模态学习 强化学习 辅助线构造 视觉-文本交错 策略优化 大型语言模型

📋 核心要点

  1. 现有MLLM在几何推理中依赖静态图,缺乏动态构造辅助线的能力,限制了解题能力。
  2. 提出A2PO,利用强化学习训练MLLM,使其能够策略性地选择和利用辅助线进行推理。
  3. 实验表明,A2PO能有效提升MLLM的几何推理能力,相比基线模型性能提升3.51%。

📝 摘要(中文)

几何推理本质上需要“构造性思考”,即动态地操纵视觉辅助来弥合问题条件和解决方案之间的差距。然而,现有的多模态大型语言模型(MLLM)主要局限于使用静态图进行被动推理,缺乏何时以及如何构建有效视觉辅助的策略知识。为了解决这个问题,我们提出了一个视觉-文本交错的思维链框架。首先,我们引入了GeoAux-Bench,这是第一个包含4334个几何问题的基准,它将文本构造步骤与真实的视觉更新对齐。我们的初步研究揭示了两个关键见解:(1)交错的视觉-文本辅助优于单一模态的对应物,后者无法无损地捕捉几何协同作用;(2)有效的构造充当熵减少器,与降低的推理困惑度密切相关。基于这些发现,我们提出了一种动作适用性策略优化(A2PO),这是一种用于掌握战略构造的强化学习范例。A2PO采用自适应奖励塑造,通过反事实抽样来区分必要和冗余的构造,从而调节视觉辅助的时机和质量。实验表明,我们的方法使MLLM能够利用选择性的辅助构造,与强大的基线相比,产生了3.51%的增益。代码和数据可在GitHub上获得。

🔬 方法详解

问题定义:现有MLLM在解决几何问题时,主要依赖于静态的图像信息进行推理,缺乏动态构造辅助线的能力。这种局限性使得模型难以捕捉几何元素之间的复杂关系,从而影响了解题的准确性。现有的方法无法有效地将文本描述的构造步骤与视觉更新对齐,导致模型难以学习何时以及如何进行有效的构造。

核心思路:论文的核心思路是利用强化学习来训练MLLM,使其能够学习策略性地选择和利用辅助线进行几何推理。通过将构造辅助线的行为建模为动作,并设计合适的奖励函数,鼓励模型进行有效的构造,从而提高解题的准确性。这种方法的核心在于让模型能够像人类专家一样,通过动态地添加辅助线来简化问题,从而更容易找到解决方案。

技术框架:整体框架包括以下几个主要模块:1) 环境:几何问题及其对应的图;2) 智能体:MLLM,负责根据当前状态选择构造动作;3) 动作空间:预定义的辅助线构造动作集合;4) 奖励函数:用于评估构造动作的有效性,包括解题成功与否以及构造的必要性;5) 策略优化:使用强化学习算法(如Policy Optimization)来更新智能体的策略,使其能够选择更有效的构造动作。框架采用视觉-文本交错的思维链方式,将文本描述的构造步骤与视觉更新对齐。

关键创新:论文的关键创新在于提出了Action Applicability Policy Optimization (A2PO),这是一种基于强化学习的策略优化方法,用于训练MLLM掌握战略构造。A2PO的核心在于Adaptive Reward Shaping,它通过反事实抽样来区分必要和冗余的构造,从而调节视觉辅助的时机和质量。与现有方法的本质区别在于,A2PO能够让模型学习到何时以及如何进行有效的构造,而不仅仅是被动地进行推理。

关键设计:A2PO的关键设计包括:1) 动作空间的设计:定义了一组常用的辅助线构造动作,如连接两点、作垂线等;2) 奖励函数的设计:采用自适应奖励塑造,根据解题成功与否以及构造的必要性来调整奖励;3) 策略优化算法的选择:选择了Policy Optimization算法,并进行了适当的调整,以适应几何推理任务的特点;4) 反事实抽样:通过反事实抽样来评估构造的必要性,从而避免模型进行冗余的构造。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,A2PO能够有效提升MLLM的几何推理能力,在GeoAux-Bench基准测试中,相比于强大的基线模型,A2PO取得了3.51%的性能提升。这表明A2PO能够让MLLM更好地利用辅助线进行推理,从而提高解题的准确性。

🎯 应用场景

该研究成果可应用于智能教育、几何题自动求解、机器人视觉等领域。例如,可以开发智能几何辅导系统,帮助学生理解几何概念和解题方法;也可以应用于机器人视觉,使机器人能够理解几何场景并进行相应的操作。未来,该技术有望扩展到更广泛的视觉推理任务中。

📄 摘要(原文)

Geometric reasoning inherently requires "thinking with constructions" -- the dynamic manipulation of visual aids to bridge the gap between problem conditions and solutions. However, existing Multimodal Large Language Models (MLLMs) are largely confined to passive inference with static diagrams, lacking the strategic knowledge of when and how to construct effective visual aids. To address this, we present a framework for Visual-Text Interleaved Chain-of-Thought. We first introduce GeoAux-Bench, the first benchmark comprising 4,334 geometry problems that aligns textual construction steps with ground-truth visual updates. Our pilot study reveals two critical insights: (1) interleaved visual-textual aids outperform single-modality counterparts, which cannot losslessly capture geometric synergy; and (2) valid constructions act as entropy reducers, strongly correlating with reduced reasoning perplexity. Building on these findings, we propose Action Applicability Policy Optimization (A2PO), a reinforcement learning paradigm for mastering strategic construction. A2PO employs Adaptive Reward Shaping to regulate the timing and quality of visual aids via counterfactual sampling to distinguish necessary from redundant constructions. Experiments demonstrate our approach enables MLLMs to leverage selective auxiliary constructions, yielding a 3.51% gain over strong baselines. Code and data are available on GitHub.