GeoTikzBridge: Advancing Multimodal Code Generation for Geometric Perception and Reasoning

📄 arXiv: 2603.22687v1 📥 PDF

作者: Jiayin Sun, Caixia Sun, Boyu Yang, Hailin Li, Xiao Chen, Yi Zhang, Errui Ding, Liang Li, Chao Deng, Junlan Feng

分类: cs.CV

发布日期: 2026-03-24

备注: accepted by CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

GeoTikzBridge:通过Tikz代码生成增强多模态大模型几何感知与推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 几何感知 视觉推理 代码生成 Tikz 大语言模型 几何问题求解

📋 核心要点

  1. 现有MLLM难以精确感知几何结构,限制了几何理解和视觉推理能力,尤其是在需要细粒度几何信息的问题中。
  2. GeoTikzBridge框架通过生成Tikz代码来增强MLLM的几何感知能力,利用代码的精确性弥补视觉信息的不足。
  3. 实验表明,GeoTikzBridge在几何问题求解中达到了SOTA性能,并且可以作为即插即用模块提升其他MLLM的推理能力。

📝 摘要(中文)

多模态大语言模型(MLLM)最近展现了卓越的感知和推理能力。然而,它们在感知细粒度几何结构方面存在困难,限制了几何理解和视觉推理能力。为了解决这个问题,我们提出了GeoTikzBridge,一个通过基于tikz的代码生成来增强局部几何感知和视觉推理的框架。在这个框架内,我们构建了两个由互补数据集支持的模型。GeoTikzBridge-Base模型在GeoTikz-Base数据集上进行训练,这是迄今为止最大的图像到tikz数据集,包含250万个pair(比现有的开源数据集大16倍)。这个过程通过迭代数据扩展和局部几何变换策略来实现。随后,GeoTikzBridge-Instruct在GeoTikz-Instruct数据集上进行微调,这是第一个支持视觉推理的指令增强型tikz数据集。大量的实验结果表明,我们的模型在开源MLLM中实现了最先进的性能。此外,GeoTikzBridge模型可以作为任何MLLM(LLM)的即插即用推理模块,增强几何问题求解中的推理性能。数据集和代码可在https://github.com/sjy-1995/GeoTikzBridge-Advancing-Multimodal-Code-Generation-for-Geometric-Perception-and-Reasoning公开获取。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型在几何感知和视觉推理方面存在的不足,特别是模型难以精确理解和处理细粒度的几何结构。现有方法在处理复杂几何问题时,由于缺乏对几何信息的精确表示和推理能力,往往表现不佳。

核心思路:论文的核心思路是利用Tikz代码作为中间表示,将视觉信息转化为精确的几何描述,从而增强模型的几何感知和推理能力。Tikz是一种用于绘制矢量图形的领域特定语言,能够精确地描述几何形状和关系。通过训练模型生成Tikz代码,可以有效地将视觉信息转化为可计算的几何表示。

技术框架:GeoTikzBridge框架包含两个主要模型:GeoTikzBridge-Base和GeoTikzBridge-Instruct。GeoTikzBridge-Base模型首先在GeoTikz-Base数据集上进行预训练,该数据集包含大量的图像-Tikz代码对,用于学习图像到Tikz代码的映射关系。然后,GeoTikzBridge-Instruct模型在GeoTikz-Instruct数据集上进行微调,该数据集包含指令增强的Tikz代码,用于提升模型的视觉推理能力。该框架可以作为其他MLLM的插件,提升其几何推理能力。

关键创新:论文的关键创新在于提出了GeoTikzBridge框架,该框架通过生成Tikz代码来增强MLLM的几何感知和推理能力。与现有方法相比,GeoTikzBridge能够更精确地表示和处理几何信息,从而在几何问题求解中取得更好的性能。此外,论文还构建了两个大规模的图像-Tikz代码数据集,为模型的训练提供了充足的数据支持。

关键设计:GeoTikz-Base数据集的构建采用了迭代数据扩展和局部几何变换策略,以提高数据的质量和多样性。GeoTikz-Instruct数据集通过人工标注的方式,为Tikz代码添加了指令信息,以提升模型的视觉推理能力。具体的网络结构和损失函数等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GeoTikzBridge模型在几何问题求解中取得了显著的性能提升,在多个benchmark上达到了SOTA水平。GeoTikzBridge-Base模型在图像到Tikz代码生成任务中表现出色,GeoTikzBridge-Instruct模型在视觉推理任务中展现了强大的能力。具体性能数据和对比基线在论文中未明确给出,属于未知信息。

🎯 应用场景

GeoTikzBridge具有广泛的应用前景,例如在教育领域可以辅助几何教学,在机器人领域可以用于场景理解和导航,在计算机辅助设计领域可以用于草图识别和模型生成。该研究的实际价值在于提升了MLLM在几何问题求解方面的能力,未来可能推动更智能的视觉推理系统的发展。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have recently demonstrated remarkable perceptual and reasoning abilities. However, they struggle to perceive fine-grained geometric structures, constraining their ability of geometric understanding and visual reasoning. To address this, we propose GeoTikzBridge, a framework that enhances local geometric perception and visual reasoning through tikz-based code generation. Within this framework, we build two models supported by two complementary datasets. The GeoTikzBridge-Base model is trained on GeoTikz-Base dataset, the largest image-to-tikz dataset to date with 2.5M pairs (16 $\times$ larger than existing open-sourced datasets). This process is achieved via iterative data expansion and a localized geometric transformation strategy. Subsequently, GeoTikzBridge-Instruct is fine-tuned on GeoTikz-Instruct dataset which is the first instruction-augmented tikz dataset supporting visual reasoning. Extensive experimental results demonstrate that our models achieve state-of-the-art performance among open-sourced MLLMs. Furthermore, GeoTikzBridge models can serve as plug-and-play reasoning modules for any MLLM(LLM), enhancing reasoning performance in geometric problem-solving. Datasets and codes are publicly available at: https://github.com/sjy-1995/GeoTikzBridge-Advancing-Multimodal-Code-Generation-for-Geometric-Perception-and-Reasoning.