DynaSolidGeo: A Dynamic Benchmark for Genuine Spatial Mathematical Reasoning of VLMs in Solid Geometry

📄 arXiv: 2510.22340v2 📥 PDF

作者: Changti Wu, Shijie Lian, Zihao Liu, Lei Zhang, Laurence Tianruo Yang, Kai Chen

分类: cs.AI, cs.CL, cs.CV, cs.LG

发布日期: 2025-10-25 (更新: 2025-11-11)

备注: The code and dataset are available at \href{https://zgca-ai4edu.github.io/DynaSolidGeo/}{DynaSolidGeo}

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

DynaSolidGeo:用于评估视觉语言模型在立体几何中空间数学推理能力的新型动态基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 立体几何 视觉语言模型 空间推理 动态基准 过程评估 多模态学习 数学推理

📋 核心要点

  1. 现有方法在立体几何空间推理方面存在不足,主要集中于2D平面几何,缺乏对空间智能和符号推理的综合评估。
  2. DynaSolidGeo通过动态生成无限数量的多样化多模态实例,并引入基于推理链的过程评估,来解决现有基准的局限性。
  3. 实验结果表明,现有VLMs在动态设置和需要高级空间智能的任务中表现不佳,存在显著的性能差距。

📝 摘要(中文)

本文提出了DynaSolidGeo,一个用于评估视觉语言模型(VLMs)在立体几何中真实空间推理能力的动态基准。现有基准主要关注2D平面几何,依赖静态数据集,容易出现数据污染和记忆,并且仅通过最终答案评估模型,忽略了推理过程。DynaSolidGeo通过半自动标注流程构建,包含503个专家设计的种子问题,原则上可以动态生成无限数量的多样化多模态文本-视觉实例。除了答案准确性,还结合了基于专家标注推理链的过程评估,以衡量逻辑有效性和因果一致性。对代表性的开源和闭源VLMs的实验表明,存在巨大的性能差距,动态设置下性能严重下降,并且在需要高级空间智能的任务(如心理旋转和可视化)上表现不佳。代码和数据集可在DynaSolidGeo网站上获取。

🔬 方法详解

问题定义:现有视觉语言模型(VLMs)在解决立体几何问题时,面临着缺乏有效评估基准的挑战。现有基准主要集中于2D平面几何,忽略了对空间智能和符号推理的综合评估。此外,静态数据集容易受到数据污染和记忆的影响,且仅关注最终答案,忽略了推理过程的逻辑性和因果性。

核心思路:DynaSolidGeo的核心思路是构建一个动态的、可扩展的基准,能够生成无限数量的多样化多模态实例,从而避免数据污染和记忆。同时,引入基于专家标注推理链的过程评估,以衡量模型的逻辑有效性和因果一致性,而不仅仅是最终答案的准确性。

技术框架:DynaSolidGeo的构建流程包括以下几个主要阶段:1) 专家设计种子问题:由专家设计503个高质量的立体几何问题作为种子。2) 半自动标注流程:利用半自动化的标注流程,基于种子问题动态生成新的问题实例,保证多样性和可扩展性。3) 推理链标注:由专家对每个问题实例标注推理链,用于过程评估。4) 动态生成:通过改变问题的参数、视角等方式,动态生成新的问题实例。

关键创新:DynaSolidGeo的关键创新在于其动态生成问题的能力和基于推理链的过程评估。动态生成问题可以有效避免数据污染和记忆,保证评估的公平性。基于推理链的过程评估可以更全面地评估模型的推理能力,而不仅仅是最终答案的准确性。与现有方法相比,DynaSolidGeo更关注模型的空间智能和符号推理能力。

关键设计:DynaSolidGeo的关键设计包括:1) 种子问题的选择:选择具有代表性的立体几何问题作为种子,保证问题类型的多样性。2) 半自动标注流程的设计:设计高效的半自动标注流程,降低人工标注的成本。3) 推理链标注规范:制定详细的推理链标注规范,保证标注的一致性和准确性。4) 动态生成策略:设计多种动态生成策略,如改变问题的参数、视角等,保证问题实例的多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有VLMs在DynaSolidGeo基准上表现不佳,尤其是在动态设置和需要高级空间智能的任务中。例如,在需要心理旋转和可视化的任务上,模型的性能显著下降。这表明现有VLMs在空间推理方面仍有很大的提升空间。

🎯 应用场景

DynaSolidGeo可以应用于评估和提升视觉语言模型在空间推理、几何理解和数学问题解决等方面的能力。该基准可以促进相关领域的研究,推动开发更智能、更可靠的AI系统,应用于教育、机器人导航、三维场景理解等领域。

📄 摘要(原文)

Solid geometry problem solving demands spatial mathematical reasoning that integrates spatial intelligence and symbolic reasoning. However, most existing multimodal mathematical reasoning benchmarks focus primarily on 2D plane geometry, rely on static datasets prone to data contamination and memorization, and evaluate models solely by final answers, overlooking the reasoning process. To address these limitations, we introduce DynaSolidGeo, the first dynamic benchmark for evaluating genuine spatial reasoning in Vision-Language Models (VLMs). Constructed through a semi-automatic annotation pipeline, DynaSolidGeo contains 503 expert-curated seed questions that can, in principle, dynamically generate an unbounded number of diverse multimodal text-visual instances. Beyond answer accuracy, we incorporate process evaluation based on expert-annotated reasoning chains to measure logical validity and causal coherence. Experiments across representative open-source and closed-source VLMs reveal large performance gaps, severe degradation in dynamic settings, and poor performance on tasks requiring high-level spatial intelligence, such as mental rotation and visualization. The code and dataset are available at \href{https://zgca-ai4edu.github.io/DynaSolidGeo/}{DynaSolidGeo}.