GeoFM: Enhancing Geometric Reasoning of MLLMs via Synthetic Data Generation through Formal Language

📄 arXiv: 2510.27448v1 📥 PDF

作者: Yuhao Zhang, Dingxin Hu, Tinghao Yu, Hao Liu, Yiting Liu

分类: cs.AI

发布日期: 2025-10-31


💡 一句话要点

GeoFM:通过形式语言生成合成数据,提升多模态大语言模型几何推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 几何推理 合成数据生成 形式语言 符号引擎

📋 核心要点

  1. 多模态大语言模型在几何推理上受限于高质量几何数据的匮乏,现有合成数据方法存在多样性不足和噪声问题。
  2. GeoFM利用形式语言在度量空间探索条件组合,生成高保真且保证正确性的几何问题,从而提升数据质量。
  3. 实验表明,使用GeoFM生成的数据训练的模型在几何问题解决任务上显著优于GPT-4o和领先的开源模型。

📝 摘要(中文)

多模态大语言模型(MLLMs)在处理多模态任务方面受到了学术界和工业界的广泛关注。然而,由于高质量几何数据的稀缺,这些模型在数学几何推理方面面临挑战。为了解决这个问题,合成几何数据已成为一种重要的策略。目前生成合成几何数据的方法包括重新措辞或扩展现有问题,以及利用预定义的规则和模板来创建几何图像和问题。然而,这些方法通常产生缺乏多样性或容易产生噪声的数据。此外,现有方法合成的几何图像往往表现出有限的变化,并且与真实的几何图差异很大。为了克服这些限制,我们提出了一种新的几何数据合成方法GeoFM。GeoFM使用形式语言来探索度量空间内条件的组合,生成与原始问题不同但通过符号引擎确保正确性的高保真几何问题。实验结果表明,我们的合成数据明显优于现有方法。使用我们的数据训练的模型在MathVista的几何问题解决任务中超过了专有的GPT-4o模型18.7%,在GeoQA中超过了16.5%。此外,它在MathVista上超过了领先的开源模型5.7%,在GeoQA上超过了2.7%。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型在几何推理方面因高质量训练数据不足而面临的挑战。现有合成几何数据的方法,如重新措辞或扩展现有问题、使用预定义规则和模板等,存在数据多样性不足、易产生噪声、合成图像与真实几何图差异大等痛点。

核心思路:GeoFM的核心思路是利用形式语言在度量空间中探索几何条件的各种组合,从而生成大量既与原始问题不同,又能保证逻辑正确性的新几何问题。通过这种方式,可以显著增加训练数据的多样性,并避免传统方法中引入的噪声。

技术框架:GeoFM的技术框架主要包含以下几个阶段:1) 使用形式语言描述几何问题;2) 在度量空间内,通过形式语言探索各种几何条件的组合;3) 使用符号引擎验证生成问题的正确性;4) 将生成的问题转化为图像和文本描述,用于训练多模态大语言模型。

关键创新:GeoFM最重要的技术创新点在于使用形式语言来表示和操作几何问题,这使得能够系统地探索各种几何条件的组合,并利用符号引擎保证生成问题的正确性。与现有方法相比,GeoFM能够生成更多样化、更高质量的几何数据。

关键设计:GeoFM的关键设计包括:1) 设计合适的几何形式语言,能够充分表达各种几何关系;2) 选择合适的符号引擎,能够高效地验证几何问题的正确性;3) 设计有效的采样策略,以探索度量空间中各种几何条件的组合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用GeoFM生成的合成数据训练的模型在MathVista和GeoQA数据集上均取得了显著的性能提升。在MathVista上,超越了GPT-4o模型18.7%,超越领先的开源模型5.7%。在GeoQA上,超越了GPT-4o模型16.5%,超越领先的开源模型2.7%。这些结果表明GeoFM在提升几何推理能力方面的有效性。

🎯 应用场景

GeoFM的研究成果可广泛应用于提升多模态大语言模型在几何、物理等领域的推理能力。在教育领域,可以生成个性化的几何练习题,辅助学生学习。在机器人领域,可以增强机器人对环境的几何理解能力,提高其导航和操作的精度。未来,该方法有望扩展到其他需要复杂推理的领域。

📄 摘要(原文)

Multi-modal Large Language Models (MLLMs) have gained significant attention in both academia and industry for their capabilities in handling multi-modal tasks. However, these models face challenges in mathematical geometric reasoning due to the scarcity of high-quality geometric data. To address this issue, synthetic geometric data has become an essential strategy. Current methods for generating synthetic geometric data involve rephrasing or expanding existing problems and utilizing predefined rules and templates to create geometric images and problems. However, these approaches often produce data that lacks diversity or is prone to noise. Additionally, the geometric images synthesized by existing methods tend to exhibit limited variation and deviate significantly from authentic geometric diagrams. To overcome these limitations, we propose GeoFM, a novel method for synthesizing geometric data. GeoFM uses formal languages to explore combinations of conditions within metric space, generating high-fidelity geometric problems that differ from the originals while ensuring correctness through a symbolic engine. Experimental results show that our synthetic data significantly outperforms existing methods. The model trained with our data surpass the proprietary GPT-4o model by 18.7\% on geometry problem-solving tasks in MathVista and by 16.5\% on GeoQA. Additionally, it exceeds the performance of a leading open-source model by 5.7\% on MathVista and by 2.7\% on GeoQA.