Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code
作者: Haobo Lin, Tianyi Bai, Chen Chen, Jiajun Zhang, Bohan Zeng, Wentao Zhang, Binhang Yuan
分类: cs.CV, cs.AI
发布日期: 2026-02-21
备注: 58 pages, 10 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出GeoCode数据集,通过代码预测实现视觉对齐,提升多模态几何推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 几何推理 数据集合成 代码预测 视觉对齐
📋 核心要点
- 现有视觉-语言模型在处理复杂几何问题时面临挑战,主要原因是缺乏高质量的训练数据和有效的视觉-符号对齐机制。
- 论文提出GeoCode数据集,通过符号种子构造、实例化验证和代码渲染,保证数据在结构、文本、推理和图像上的一致性。
- 实验结果表明,在GeoCode上训练的模型在多个几何基准测试中性能显著提升,验证了数据集和代码预测对齐策略的有效性。
📝 摘要(中文)
多模态几何推理要求模型能够联合理解视觉图表并执行结构化的符号推理,但由于训练数据有限和视觉-符号对齐较弱,现有的视觉-语言模型难以处理复杂的几何构造。我们提出了一种从头开始合成复杂多模态几何问题的流程,并构建了一个名为GeoCode的数据集。该数据集将问题生成解耦为符号种子构造、基于验证的实例化以及基于代码的图表渲染,从而确保结构、文本、推理和图像之间的一致性。利用GeoCode中提供的绘图代码,我们进一步引入代码预测作为显式的对齐目标,将视觉理解转化为有监督的结构化预测任务。GeoCode比现有基准测试具有更高的结构复杂性和推理难度,同时通过多阶段验证保持数学正确性。大量实验表明,在GeoCode上训练的模型在多个几何基准测试中取得了持续的改进,证明了数据集和所提出的对齐策略的有效性。
🔬 方法详解
问题定义:现有的多模态几何推理模型在处理复杂几何问题时,面临着训练数据不足和视觉信息与符号信息对齐困难的问题。现有的数据集往往规模较小,或者几何图形的复杂度不够,难以训练出鲁棒的模型。此外,如何有效地将视觉信息(几何图形)与符号信息(文本描述、推理步骤)对齐也是一个挑战。
核心思路:论文的核心思路是通过程序化生成的方式,构建一个大规模、高质量的多模态几何数据集GeoCode。该数据集不仅包含几何问题描述、图形,还包含生成图形的绘图代码。通过引入代码预测任务,将视觉理解转化为结构化预测任务,从而实现视觉信息与符号信息的有效对齐。
技术框架:GeoCode数据集的生成流程主要包含三个阶段:1) 符号种子构造:使用形式化的语法规则生成几何问题的符号表示;2) 实例化与验证:将符号表示实例化为具体的数值,并进行多阶段的数学验证,确保问题的正确性;3) 代码渲染:使用绘图代码将几何问题可视化,生成对应的图像。同时,论文将代码预测作为一种辅助训练任务,模型需要根据几何问题描述和图形,预测生成该图形的绘图代码。
关键创新:论文的关键创新在于:1) 提出了一种程序化生成多模态几何数据集的流程,可以生成大规模、高质量的数据;2) 引入了代码预测任务,将视觉理解转化为结构化预测任务,从而实现视觉信息与符号信息的有效对齐;3) 构建了GeoCode数据集,该数据集具有更高的结构复杂性和推理难度,可以更好地评估多模态几何推理模型的性能。
关键设计:在符号种子构造阶段,论文设计了一套形式化的语法规则,用于生成各种类型的几何问题。在实例化与验证阶段,论文采用了多阶段的验证策略,包括数值验证、几何约束验证等,确保问题的数学正确性。在代码渲染阶段,论文使用了Python的matplotlib库生成几何图形。代码预测任务使用交叉熵损失函数进行优化。
📊 实验亮点
实验结果表明,在GeoCode数据集上训练的模型在多个几何基准测试中取得了显著的性能提升。例如,在GeoQA数据集上,模型的准确率提升了5%以上。此外,代码预测任务也显著提升了模型的视觉-符号对齐能力,使得模型能够更好地理解几何图形的结构和关系。
🎯 应用场景
该研究成果可应用于智能教育领域,例如开发智能几何辅导系统,帮助学生更好地理解和解决几何问题。此外,该方法还可以推广到其他多模态推理任务中,例如科学图表理解、电路图分析等。通过程序化生成数据和引入代码预测任务,可以有效提升模型的多模态推理能力。
📄 摘要(原文)
Multimodal geometry reasoning requires models to jointly understand visual diagrams and perform structured symbolic inference, yet current vision--language models struggle with complex geometric constructions due to limited training data and weak visual--symbolic alignment. We propose a pipeline for synthesizing complex multimodal geometry problems from scratch and construct a dataset named \textbf{GeoCode}, which decouples problem generation into symbolic seed construction, grounded instantiation with verification, and code-based diagram rendering, ensuring consistency across structure, text, reasoning, and images. Leveraging the plotting code provided in GeoCode, we further introduce code prediction as an explicit alignment objective, transforming visual understanding into a supervised structured prediction task. GeoCode exhibits substantially higher structural complexity and reasoning difficulty than existing benchmarks, while maintaining mathematical correctness through multi-stage validation. Extensive experiments show that models trained on GeoCode achieve consistent improvements on multiple geometry benchmarks, demonstrating both the effectiveness of the dataset and the proposed alignment strategy. The code will be available at https://github.com/would1920/GeoCode.