GamiBench: Evaluating Spatial Reasoning and 2D-to-3D Planning Capabilities of MLLMs with Origami Folding Tasks

作者: Ryan Spencer, Roey Yaari, Ritvik Vemavarapu, Joyce Yang, Steven Ngo, Utkarsh Sharma

分类: cs.AI

发布日期: 2025-12-22

🔗 代码/项目: GITHUB

💡 一句话要点

GamiBench：通过折纸任务评估多模态大语言模型空间推理和2D到3D规划能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 空间推理 折纸任务 2D到3D规划 视觉问答 基准测试 视角一致性 物理可行性

📋 核心要点

现有基准测试在评估多模态大语言模型(MLLM)的空间推理能力时，缺乏对顺序性和视角依赖性的考虑。
GamiBench通过折纸任务，从跨视图一致性、物理可行性和中间步骤解释等方面，全面评估MLLM的空间推理过程。
实验表明，即使是GPT-5和Gemini-2.5-Pro等领先模型在单步空间理解方面也存在困难，突显了该基准的价值。

📝 摘要（中文）

多模态大语言模型(MLLM)在感知和指令跟随方面表现出色，但在空间推理方面仍然存在困难，即在多个视图和时间推移中对物体进行心理追踪和操作的能力。空间推理是人类智能的关键组成部分，但现有的大多数基准测试侧重于静态图像或最终输出，未能考虑到这种技能的顺序性和视角依赖性。为了弥补这一差距，我们引入了GamiBench，这是一个旨在通过折纸启发式折叠任务评估MLLM中的空间推理和2D到3D规划的基准。GamiBench包括186个常规和186个不可能的2D折痕图案，以及它们对应的3D折叠形状，这些形状来自六个不同的视角，跨越三个视觉问答(VQA)任务：预测3D折叠配置、区分有效视角和检测不可能的图案。与之前仅评估最终预测的基准不同，GamiBench全面评估整个推理过程——测量跨视图一致性、通过不可能折叠检测的物理可行性以及中间折叠步骤的解释。它进一步引入了新的诊断指标——视角一致性(VC)和不可能折叠选择率(IFSR)——以衡量模型处理不同复杂程度的折叠的能力。我们的实验表明，即使是GPT-5和Gemini-2.5-Pro等领先模型在单步空间理解方面也存在困难。这些贡献为评估MLLM中的几何理解和空间推理建立了一个标准化的框架。数据集和代码：https://github.com/stvngo/GamiBench。

🔬 方法详解

问题定义：现有方法在评估多模态大语言模型(MLLM)的空间推理能力时，主要集中于静态图像或最终输出的评估，忽略了空间推理的顺序性和视角依赖性。这导致无法全面评估模型在复杂空间任务中的推理能力，例如理解中间步骤和判断物理可行性。

核心思路：GamiBench的核心思路是利用折纸任务来模拟真实世界中的空间推理过程。折纸任务天然具有顺序性和视角依赖性，需要模型在多个视图和时间步骤中跟踪和操作对象。通过设计不同的视觉问答(VQA)任务，例如预测3D折叠配置、区分有效视角和检测不可能的图案，可以全面评估模型的空间推理能力。

技术框架：GamiBench包含以下主要组成部分：1) 折纸数据集：包含186个常规和186个不可能的2D折痕图案，以及它们对应的3D折叠形状，这些形状来自六个不同的视角。2) 视觉问答(VQA)任务：包括预测3D折叠配置、区分有效视角和检测不可能的图案。3) 评估指标：包括视角一致性(VC)和不可能折叠选择率(IFSR)，用于衡量模型处理不同复杂程度的折叠的能力。整体流程是，给定一个2D折痕图案和相应的视角，模型需要回答与3D折叠形状相关的问题。

关键创新：GamiBench的关键创新在于：1) 引入了折纸任务作为评估MLLM空间推理能力的基准，弥补了现有基准的不足。2) 设计了新的诊断指标，例如视角一致性(VC)和不可能折叠选择率(IFSR)，用于更细粒度地评估模型的空间推理能力。3) 提供了一个包含常规和不可能折叠图案的数据集，用于评估模型的物理可行性判断能力。

关键设计：GamiBench的关键设计包括：1) 数据集的构建：通过算法生成折纸图案和对应的3D折叠形状，并从六个不同的视角渲染图像。2) VQA任务的设计：设计了三种不同的VQA任务，分别评估模型在预测3D折叠配置、区分有效视角和检测不可能的图案方面的能力。3) 评估指标的设计：视角一致性(VC)衡量模型在不同视角下预测结果的一致性，不可能折叠选择率(IFSR)衡量模型识别不可能折叠图案的能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是GPT-5和Gemini-2.5-Pro等领先模型在GamiBench基准上表现不佳，突显了现有MLLM在空间推理方面的局限性。具体而言，这些模型在单步空间理解、视角一致性和物理可行性判断方面都存在困难。GamiBench提供了一个标准化的框架，可以用于评估和改进MLLM的空间推理能力。

🎯 应用场景

GamiBench的研究成果可以应用于机器人操作、自动驾驶、增强现实等领域。通过提高MLLM的空间推理能力，可以使机器人更好地理解和操作周围环境，提高自动驾驶系统的安全性和可靠性，并为增强现实应用提供更逼真的交互体验。未来，该研究可以扩展到更复杂的空间任务，例如三维重建和场景理解。

📄 摘要（原文）

Multimodal large language models (MLLMs) are proficient in perception and instruction-following, but they still struggle with spatial reasoning: the ability to mentally track and manipulate objects across multiple views and over time. Spatial reasoning is a key component of human intelligence, but most existing benchmarks focus on static images or final outputs, failing to account for the sequential and viewpoint-dependent nature of this skill. To close this gap, we introduce GamiBench, a benchmark designed to evaluate spatial reasoning and 2D-to-3D planning in MLLMs through origami-inspired folding tasks. GamiBench includes 186 regular and 186 impossible 2D crease patterns paired with their corresponding 3D folded shapes, produced from six distinct viewpoints across three visual question-answering (VQA) tasks: predicting 3D fold configurations, distinguishing valid viewpoints, and detecting impossible patterns. Unlike previous benchmarks that assess only final predictions, GamiBench holistically evaluates the entire reasoning process--measuring cross-view consistency, physical feasibility through impossible-fold detection, and interpretation of intermediate folding steps. It further introduces new diagnostic metrics--viewpoint consistency (VC) and impossible fold selection rate (IFSR)--to measure how well models handle folds of varying complexity. Our experiments show that even leading models such as GPT-5 and Gemini-2.5-Pro struggle on single-step spatial understanding. These contributions establish a standardized framework for evaluating geometric understanding and spatial reasoning in MLLMs. Dataset and code: https://github.com/stvngo/GamiBench.

GamiBench: Evaluating Spatial Reasoning and 2D-to-3D Planning Capabilities of MLLMs with Origami Folding Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理