GeoBench: Rethinking Multimodal Geometric Problem-Solving via Hierarchical Evaluation

作者: Yuan Feng, Yue Yang, Xiaohan He, Jiatong Zhao, Jianlong Chen, Zijun Chen, Daocheng Fu, Qi Liu, Renqiu Xia, Bo Zhang, Junchi Yan

分类: cs.CV

发布日期: 2025-12-30

💡 一句话要点

GeoBench：通过分层评估重新思考多模态几何问题求解

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 几何问题求解 视觉语言模型 分层评估 基准测试 数学推理

📋 核心要点

现有VLM在几何推理方面存在数据污染、重结果轻过程和诊断粒度不足等问题。
GeoBench通过分层基准测试，从视觉感知到自我反思，更全面地评估模型几何推理能力。
实验表明，子目标分解和过滤无关信息对提升几何问题求解至关重要，思维链提示效果不佳。

📝 摘要（中文）

几何问题求解是数学推理的一个关键分支，需要对形状和空间关系进行精确分析。目前对视觉语言模型(VLM)中几何推理的评估面临诸多限制，包括来自教科书的基准测试数据污染风险、过度强调最终答案而忽略推理过程，以及诊断粒度不足。为了解决这些问题，我们提出了GeoBench，这是一个分层基准，包含几何问题求解中的四个推理级别：视觉感知、目标导向规划、严格定理应用和自我反思回溯。通过TrustGeoGen生成的六个经过形式验证的任务，我们系统地评估了从属性提取到逻辑错误纠正的能力。实验表明，虽然像OpenAI-o3这样的推理模型优于一般的MLLM，但性能随着任务复杂性的增加而显著下降。关键发现表明，子目标分解和不相关前提过滤对最终问题求解的准确性至关重要，而思维链提示在某些任务中意外地降低了性能。这些发现将GeoBench确立为一个全面的基准，同时为开发几何问题求解系统提供了可操作的指导。

🔬 方法详解

问题定义：论文旨在解决视觉语言模型（VLM）在几何问题求解中存在的评估不足问题。现有基准测试存在数据污染（来自教科书）、过度关注最终答案而忽略推理过程、以及诊断粒度不够精细的缺陷，难以全面评估模型的几何推理能力。

核心思路：论文的核心思路是构建一个分层的几何问题求解基准GeoBench，该基准包含四个推理级别：视觉感知、目标导向规划、严格定理应用和自我反思回溯。通过这种分层结构，可以更细粒度地评估模型在不同推理阶段的能力，从而更全面地了解模型的优势和不足。

技术框架：GeoBench的技术框架主要包括以下几个部分：1) 使用TrustGeoGen生成六个经过形式验证的几何问题求解任务；2) 将每个任务分解为四个推理级别；3) 设计评估指标，用于衡量模型在每个推理级别的表现；4) 使用不同的VLM模型（如OpenAI-o3）在GeoBench上进行实验，分析模型在不同推理级别的表现。

关键创新：GeoBench的关键创新在于其分层评估结构，它将几何问题求解分解为多个推理级别，从而可以更细粒度地评估模型的推理能力。此外，GeoBench使用TrustGeoGen生成经过形式验证的任务，避免了数据污染问题。

关键设计：GeoBench的关键设计包括：1) 四个推理级别的定义：视觉感知、目标导向规划、严格定理应用和自我反思回溯；2) TrustGeoGen生成的任务类型；3) 评估指标的设计，例如准确率、召回率等；4) 实验中使用的VLM模型和超参数设置。

🖼️ 关键图片

📊 实验亮点

实验结果表明，OpenAI-o3等推理模型在GeoBench上的表现优于一般的MLLM，但随着任务复杂性的增加，性能显著下降。子目标分解和不相关前提过滤对最终问题求解的准确性至关重要，而思维链提示在某些任务中意外地降低了性能。这些发现强调了模型在处理复杂几何问题时，需要更强的推理能力和更有效的策略。

🎯 应用场景

GeoBench可用于评估和改进视觉语言模型在几何问题求解方面的能力，推动VLM在数学教育、机器人导航、计算机辅助设计等领域的应用。通过更精确的几何推理，VLM可以更好地理解和操作现实世界，例如在自动驾驶中识别交通标志和道路结构，或在机器人操作中进行精确的物体定位和操作。

📄 摘要（原文）

Geometric problem solving constitutes a critical branch of mathematical reasoning, requiring precise analysis of shapes and spatial relationships. Current evaluations of geometric reasoning in vision-language models (VLMs) face limitations, including the risk of test data contamination from textbook-based benchmarks, overemphasis on final answers over reasoning processes, and insufficient diagnostic granularity. To address these issues, we present GeoBench, a hierarchical benchmark featuring four reasoning levels in geometric problem-solving: Visual Perception, Goal-Oriented Planning, Rigorous Theorem Application, and Self-Reflective Backtracking. Through six formally verified tasks generated via TrustGeoGen, we systematically assess capabilities ranging from attribute extraction to logical error correction. Experiments reveal that while reasoning models like OpenAI-o3 outperform general MLLMs, performance declines significantly with increasing task complexity. Key findings demonstrate that sub-goal decomposition and irrelevant premise filtering critically influence final problem-solving accuracy, whereas Chain-of-Thought prompting unexpectedly degrades performance in some tasks. These findings establish GeoBench as a comprehensive benchmark while offering actionable guidelines for developing geometric problem-solving systems.

GeoBench: Rethinking Multimodal Geometric Problem-Solving via Hierarchical Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理