LatentGeo: Learnable Auxiliary Constructions in Latent Space for Multimodal Geometric Reasoning

📄 arXiv: 2603.12166v1 📥 PDF

作者: Haiying Xu, Zihan Wang, Song Dai, Zhengxuan Zhang, Kairan Dou, Xuming Hu

分类: cs.CV

发布日期: 2026-03-12


💡 一句话要点

LatentGeo:通过隐空间可学习辅助构造提升多模态几何推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 几何推理 辅助构造 隐空间表示 强化学习

📋 核心要点

  1. 现有方法难以有效表示辅助几何构造,存在空间关系表达不足、离散-连续表示不匹配以及依赖外部工具等问题。
  2. LatentGeo通过学习连续潜在视觉表示,在隐空间内化辅助几何构造,无需像素级渲染或外部执行器。
  3. LatentGeo在GeoAux和MathVerse上取得了显著提升,验证了其在几何推理任务,特别是需要辅助构造任务上的有效性。

📝 摘要(中文)

多模态推理的最新进展表明,表示辅助几何构造仍然是多模态大型语言模型(MLLM)面临的一个根本挑战。这些构造在原始图表中不存在,必须在应用定理之前引入。现有方法主要依赖于显式构造范式,包括基于文本的几何规范、推理期间的视觉token交错以及工具增强的几何执行。然而,这些方法要么无法忠实地表示复杂的空间关系,要么导致离散符号和连续几何结构之间的表示不匹配,要么依赖于阻碍端到端优化的外部能力。为了解决这些限制,我们提出了LatentGeo,一个学习连续潜在视觉表示的框架,以在没有像素级渲染或外部执行器的情况下内化辅助几何构造。我们设计了一个三阶段课程,通过辅助视觉监督逐步对齐和内化这些潜在表示,然后是LaGDPO,一种潜在感知的强化学习过程,可在策略优化期间稳定潜在表示,同时提高最终任务的正确性。为了系统地评估以构造为中心的表示质量,我们引入了GeoAux,一个新的针对视觉依赖几何问题的基准,并在GeoAux和MathVerse上进行了实验。结果表明,LatentGeo在几何推理任务上取得了显著的收益,尤其是在那些需要辅助构造的任务上。广泛的分析和消融研究进一步验证了我们框架中每个组件的有效性。

🔬 方法详解

问题定义:多模态几何推理任务中,如何有效地表示和利用辅助几何构造是一个关键问题。现有方法,如基于文本的几何规范、视觉token交错和工具增强的几何执行,存在表示能力不足、表示不匹配以及依赖外部工具等痛点,限制了模型的推理能力和端到端优化。

核心思路:LatentGeo的核心思路是通过学习连续的潜在视觉表示来内化辅助几何构造。这种方法避免了显式地渲染像素或依赖外部执行器,从而解决了表示不匹配和依赖外部能力的问题。通过在隐空间中进行操作,模型可以更灵活地进行几何推理。

技术框架:LatentGeo包含一个三阶段的课程学习过程和一个潜在感知的强化学习过程。三阶段课程学习包括:1)预训练阶段,使用对比学习对齐视觉和文本特征;2)辅助构造对齐阶段,使用辅助视觉监督对齐潜在表示;3)任务微调阶段,在下游几何推理任务上进行微调。之后,使用LaGDPO(Latent-Aware Gradient Difference Policy Optimization)进行强化学习,以稳定潜在表示并提高任务正确性。

关键创新:LatentGeo的关键创新在于它使用连续的潜在视觉表示来内化辅助几何构造,而不是依赖于显式的像素级渲染或外部执行器。这种方法避免了表示不匹配的问题,并且允许模型在隐空间中进行更灵活的几何推理。此外,LaGDPO算法通过考虑潜在表示的梯度差异来稳定训练过程。

关键设计:三阶段课程学习中的辅助构造对齐阶段,使用辅助视觉监督信号来引导潜在表示的学习。LaGDPO算法使用梯度差异来估计策略梯度,从而稳定潜在表示的学习。GeoAux基准专门设计用于评估模型在需要辅助构造的几何问题上的表现。损失函数包括对比损失、辅助视觉监督损失和任务损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LatentGeo在GeoAux基准上取得了显著的性能提升,相较于基线模型,在需要辅助构造的几何问题上取得了明显的优势。在MathVerse数据集上,LatentGeo也表现出优异的性能。消融实验验证了三阶段课程学习和LaGDPO算法的有效性。

🎯 应用场景

LatentGeo在几何教育、自动几何定理证明、机器人视觉和增强现实等领域具有广泛的应用前景。它可以帮助学生更好地理解几何概念,提高自动定理证明系统的效率,并为机器人提供更强大的几何推理能力,从而实现更智能的交互和导航。

📄 摘要(原文)

Despite recent advances in multimodal reasoning, representing auxiliary geometric constructions remains a fundamental challenge for multimodal large language models (MLLMs). Such constructions are absent from the original diagram and must be introduced before theorems apply. Existing approaches predominantly rely on explicit construction paradigms, including text-based geometric specification, visual-token interleaving during reasoning, and tool-augmented geometric execution. However, these methods either fail to faithfully represent complex spatial relationships, incur representation mismatch between discrete symbols and continuous geometric structures, or rely on external capabilities that hinder end-to-end optimization. To address these limitations, we propose LatentGeo, a framework that learns continuous latent visual representations to internalize auxiliary geometric constructions without pixel-level rendering or external executors. We design a three-stage curriculum that progressively aligns and internalizes these latent representations through auxiliary visual supervision, followed by LaGDPO, a latent-aware reinforcement learning procedure that stabilizes latent representations during policy optimization while improving end-task correctness. To systematically evaluate construction-centric representation quality, we introduce GeoAux, a new benchmark targeting visually dependent geometry problems, and conduct experiments on GeoAux and MathVerse. Results show that LatentGeo achieves substantial gains on geometric reasoning tasks, particularly those requiring auxiliary constructions. Extensive analyses and ablation studies further validate the effectiveness of each component in our framework.