Geoparsing: Diagram Parsing for Plane and Solid Geometry with a Unified Formal Language
作者: Peijie Wang, Ming-Liang Zhang, Jun Cao, Chao Deng, Dekang Ran, Hongda Sun, Pi Bu, Xuan Zhang, Yingyao Wang, Jun Song, Bo Zheng, Fei Yin, Cheng-Lin Liu
分类: cs.CV
发布日期: 2026-04-13
备注: Accepted to ACL2026
💡 一句话要点
提出统一形式语言和GDP-29K数据集,提升MLLM在平面和立体几何推理中的性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 几何推理 多模态学习 形式语言 数据集构建 强化学习
📋 核心要点
- 现有MLLM在几何推理方面表现不佳,主要原因是缺乏对细粒度视觉元素的有效感知。
- 论文提出了一种统一的形式语言,能够同时描述平面和立体几何,并构建了大规模数据集GDP-29K。
- 通过结合监督微调和强化学习的训练范式,显著提升了几何解析性能,并增强了MLLM的几何推理能力。
📝 摘要(中文)
多模态大型语言模型(MLLM)取得了显著进展,但由于对细粒度视觉元素的感知瓶颈,在几何推理方面仍然面临挑战。虽然形式语言已经帮助了平面几何的理解,但需要空间理解的立体几何在很大程度上仍未被探索。本文通过设计一种统一的形式语言来整合平面和立体几何,全面覆盖了几何结构和语义关系,从而应对这一挑战。我们构建了GDP-29K,一个大规模数据集,包含从各种真实世界来源收集的2万个平面和9千个立体几何样本,每个样本都与其ground-truth形式描述配对。为了确保句法正确性和几何一致性,我们提出了一种训练范式,该范式结合了监督微调和通过可验证奖励进行的强化学习。实验表明,我们的方法实现了最先进的解析性能。此外,我们证明了我们解析的形式描述作为一个关键的认知支架,显著提高了MLLM在下游几何推理任务中的能力。我们的数据和代码可在Geoparsing上找到。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在几何推理中面临的挑战,特别是由于对细粒度视觉元素的感知不足以及缺乏对立体几何的有效理解。现有方法在处理平面几何时已经取得了一些进展,但对于需要空间理解的立体几何仍然存在很大的局限性。因此,如何让MLLM能够准确解析几何图形,并在此基础上进行有效的推理,是本文要解决的核心问题。
核心思路:论文的核心思路是设计一种统一的形式语言,能够同时描述平面和立体几何的结构和语义关系。通过将几何图形解析成这种形式化的描述,可以为MLLM提供一个清晰、结构化的认知框架,从而提高其几何推理能力。此外,论文还构建了一个大规模数据集GDP-29K,用于训练和评估模型。
技术框架:整体框架包括数据收集与标注、形式语言设计、模型训练和评估四个主要阶段。首先,从各种真实世界来源收集平面和立体几何样本,并使用设计好的形式语言进行标注,构建GDP-29K数据集。然后,使用该数据集训练模型,使其能够将几何图形解析成形式化的描述。最后,通过下游的几何推理任务评估模型的性能。模型训练采用了结合监督微调和强化学习的训练范式。
关键创新:论文的关键创新在于以下几个方面:1) 提出了一种统一的形式语言,能够同时描述平面和立体几何,这在之前的研究中很少被探索。2) 构建了一个大规模数据集GDP-29K,为训练和评估模型提供了充足的数据支持。3) 提出了一种结合监督微调和强化学习的训练范式,能够有效地提高模型的解析性能和几何一致性。
关键设计:在形式语言设计方面,论文综合考虑了几何结构和语义关系,确保能够全面、准确地描述几何图形。在训练过程中,使用了可验证的奖励函数,引导模型生成句法正确且几何一致的解析结果。具体来说,奖励函数会根据解析结果的句法正确性和几何一致性给出不同的奖励,从而鼓励模型学习到正确的解析策略。损失函数结合了交叉熵损失和强化学习的奖励损失,以平衡解析精度和几何一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在几何解析任务上取得了state-of-the-art的性能。通过将解析后的形式描述作为认知支架,显著提升了MLLM在下游几何推理任务中的能力。具体性能提升数据在论文中有详细展示,相较于之前的基线方法有显著的提升。
🎯 应用场景
该研究成果可应用于教育领域,例如辅助几何教学和自动生成几何题目。在工程设计领域,可以帮助工程师进行几何建模和分析。此外,该技术还可以应用于机器人视觉和增强现实等领域,提高机器对几何环境的理解和交互能力,具有广阔的应用前景。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have achieved remarkable progress but continue to struggle with geometric reasoning, primarily due to the perception bottleneck regarding fine-grained visual elements. While formal languages have aided plane geometry understanding, solid geometry which requires spatial understanding remains largely unexplored. In this paper, we address this challenge by designing a unified formal language that integrates plane and solid geometry, comprehensively covering geometric structures and semantic relations. We construct GDP-29K, a large-scale dataset comprising 20k plane and 9k solid geometry samples collected from diverse real-world sources, each paired with its ground-truth formal description. To ensure syntactic correctness and geometric consistency, we propose a training paradigm that combines Supervised Fine-Tuning with Reinforcement Learning via Verifiable Rewards. Experiments show that our approach achieves state-of-the-art parsing performance. Furthermore, we demonstrate that our parsed formal descriptions serve as a critical cognitive scaffold, significantly boosting MLLMs' capabilities for downstream geometry reasoning tasks. Our data and code are available at Geoparsing.