GeoMathCode: Understanding Interleaved Math-Code Reasoning for Geometry Problem Solving
作者: Yingji Zhang, Yong Dai, André Freitas
分类: cs.CL
发布日期: 2026-05-25
💡 一句话要点
提出GeoMathCode,利用程序代码作为几何问题求解的中间视觉表示。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 几何问题求解 多模态学习 程序代码生成 视觉推理 大语言模型
📋 核心要点
- 现有的多模态大语言模型在解决几何问题时缺乏对中间视觉构造的有效利用,限制了其推理能力和教育价值。
- GeoMathCode通过引入程序化表示作为中间视觉输出,模拟人类解决几何问题时绘制辅助线的策略,增强几何解释。
- 实验表明,该方法能够在潜在空间中解耦推理和代码生成步骤,并使推理过程更具结构化和信息量。
📝 摘要(中文)
数学推理是人类智能的标志,需要逻辑演绎、符号操作和抽象思维。最近的多模态大型语言模型(MLLM)在几何问题上通过多步推理表现出强大的性能。为了更好地模拟人类解决问题的过程,中间步骤可以结合辅助视觉构造,例如额外的线条或点,从而提高几何解释和教育清晰度。本文提出了GeoMathCode,其中程序化表示作为中间视觉输出。进一步深入分析了几何推理的底层逻辑。实验结果表明,推理和代码生成步骤可以在潜在空间中解耦,而监督微调(SFT)使推理流形更结构化和信息丰富。此外,分层句法代码结构作为解耦的潜在子空间出现,并且比视觉表示包含更多的数学符号信息。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型在几何问题求解中,缺乏有效利用中间视觉信息(如辅助线)的问题。现有方法难以模拟人类的几何推理过程,导致解释性不足,教育价值受限。
核心思路:核心思路是将程序代码作为中间视觉表示,即GeoMathCode。通过生成程序代码来描述几何图形的构造过程,从而显式地表达几何推理的中间步骤。这种方法模拟了人类在解决几何问题时绘制辅助线的策略,有助于模型更好地理解几何关系。
技术框架:GeoMathCode框架包含以下主要阶段:1) 输入几何问题描述;2) 模型生成描述几何构造过程的程序代码;3) 利用生成的代码进行几何推理;4) 输出最终答案。该框架利用多模态大语言模型作为基础模型,并对其进行微调,使其能够生成和理解几何相关的程序代码。
关键创新:最重要的技术创新点在于将程序代码作为几何推理的中间视觉表示。与直接使用图像或文本作为中间表示相比,程序代码具有更强的结构化和符号化特性,能够更精确地表达几何关系和推理步骤。这种方法使得模型的推理过程更加透明和可解释。
关键设计:论文采用监督微调(SFT)来训练模型,使其能够生成高质量的几何程序代码。损失函数包括代码生成损失和答案预测损失。此外,论文还探索了不同的代码结构和表示方法,例如分层句法代码结构,以提高代码的表达能力和模型的推理性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GeoMathCode能够有效解耦推理和代码生成步骤,并且监督微调可以显著提升推理流形的结构化程度和信息量。此外,分层句法代码结构能够作为解耦的潜在子空间出现,并且比视觉表示包含更多的数学符号信息。这些结果验证了GeoMathCode的有效性和优越性。
🎯 应用场景
GeoMathCode可应用于智能教育领域,例如自动几何题解答、几何知识讲解和辅助教学。该方法能够提供更清晰、可解释的解题过程,帮助学生更好地理解几何概念和推理方法。此外,该技术还可应用于机器人视觉和几何建模等领域,提高机器对几何环境的理解和操作能力。
📄 摘要(原文)
Mathematical reasoning is a hallmark of human intelligence, requiring logical deduction, symbolic manipulation, and abstract thinking. Recent multimodal large language models (MLLMs) have demonstrated strong performance on geometry problems through multi-step reasoning. To better emulate human problem-solving, intermediate steps can incorporate auxiliary visual constructions, such as additional lines or points, which improve geometric interpretation and educational clarity. In this work, we introduce the GeoMathCode, where programmatic representations serve as intermediate visual outputs. We further conduct an in-depth analysis of the underlying reasoning geometry. Experimental results show that reasoning and code generation steps can be disentangled in the latent space, while supervised fine-tuning (SFT) makes the reasoning manifold more structured and informative. Moreover, hierarchical syntactic code structures emerge as disentangled latent subspaces, and contain more mathematical symbolic information than visual representations.