Cube Bench: A Benchmark for Spatial Visual Reasoning in MLLMs

作者: Dhruv Anand, Ehsan Shareghi

分类: cs.CL, cs.AI, cs.CV

发布日期: 2025-12-23

备注: 27 pages, 5 figures, 9 tables. Cube available at https://github.com/dana-23/cube-bench

💡 一句话要点

提出Cube Bench：用于评估多模态大语言模型空间视觉推理能力的魔方基准测试。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 空间推理 序列推理 魔方 基准测试

📋 核心要点

现有的多模态大语言模型在空间和序列推理方面存在不足，尤其是在复杂任务中。
Cube Bench通过魔方这一经典问题，将空间推理分解为多个可评估的技能，从而系统地测试MLLM的能力。
实验表明，即使是最先进的MLLM在魔方复杂度增加时性能也会显著下降，开源模型与闭源模型存在差距。

📝 摘要（中文）

本文提出Cube Bench，一个用于评估多模态大语言模型（MLLMs）在空间和序列推理能力的魔方基准测试。该基准将性能分解为五个技能：（i）从图像和文本重建魔方表面，（ii）选择最佳下一步动作，（iii）在不应用候选动作的情况下预测其结果，（iv）执行多步计划并在错误中恢复，以及（v）检测和修改自身错误。使用一组共享的打乱魔方状态、相同的提示和解析器以及单一的距离解决度量，我们并排比较了七个最新的MLLM，作为打乱深度的函数。结果表明，准确率随着深度急剧下降；一旦轨迹停滞或发散，模型很少恢复，并且高表面重建准确率并不能保证有效的动作选择或多步执行。闭源模型和开源模型之间存在明显的差距：最强的闭源模型在单步感知任务和多步控制任务中都处于领先地位，而开源模型在最困难的设置中接近随机水平；然而，即使是最好的MLLM也会在更高的魔方复杂度下退化。通过反思性思维进行简单的自我纠正会产生适度的收益，但也可能导致过度思考。Cube Bench 为 MLLM 中的序列空间推理提供了一个紧凑、可重现的探针。

🔬 方法详解

问题定义：论文旨在评估多模态大语言模型（MLLMs）在空间和序列推理方面的能力。现有方法缺乏一个专门针对空间推理的基准测试，无法系统地评估MLLMs在复杂环境下的推理能力。魔方作为一个经典的空间推理问题，可以很好地模拟真实世界中的复杂任务，但缺乏标准化的评估流程。

核心思路：论文的核心思路是利用魔方作为评估MLLMs空间推理能力的载体，并设计了一套标准化的评估流程。通过将魔方问题分解为多个子任务，例如表面重建、动作选择、结果预测、多步执行和错误纠正，可以更细粒度地评估MLLMs在不同方面的能力。标准化的提示、解析器和评估指标确保了实验的可重复性和可比性。

技术框架：Cube Bench的整体框架包括以下几个主要模块：1) 魔方状态生成器：生成不同复杂度的打乱魔方状态。2) 提示工程：设计标准化的提示，引导MLLMs完成各个子任务。3) MLLM推理：使用MLLMs对魔方状态进行推理，并生成相应的动作序列。4) 解析器：将MLLMs生成的动作序列解析为可执行的魔方操作。5) 评估指标：使用距离解决度量来评估MLLMs的性能。

关键创新：Cube Bench的关键创新在于：1) 提出了一个专门针对MLLMs空间推理能力的魔方基准测试。2) 将魔方问题分解为多个可评估的子任务，实现了细粒度的性能评估。3) 设计了标准化的评估流程，确保了实验的可重复性和可比性。4) 探索了自我纠正机制对MLLMs性能的影响。

关键设计：关键设计包括：1) 使用Kociemba算法生成不同复杂度的打乱魔方状态。2) 设计了针对不同子任务的标准化提示，例如“描述魔方的六个面”和“下一步应该执行哪个动作”。3) 使用距离解决度量（例如HTM）来评估MLLMs的性能。4) 探索了基于反思性思维的自我纠正机制，通过让MLLMs反思自己的错误并重新生成动作序列来提高性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MLLMs在Cube Bench上的性能随着魔方复杂度的增加而显著下降。闭源模型在单步感知和多步控制任务中表现优于开源模型。简单的自我纠正机制可以带来适度的性能提升，但过度思考可能会导致性能下降。即使是最先进的MLLM在解决复杂魔方问题时仍然面临挑战。

🎯 应用场景

Cube Bench可用于评估和比较不同MLLMs的空间推理能力，指导模型设计和训练。该基准测试的思路可以推广到其他空间推理任务，例如机器人导航、三维场景理解和虚拟现实等领域，促进相关技术的发展和应用。

📄 摘要（原文）

We introduce Cube Bench, a Rubik's-cube benchmark for evaluating spatial and sequential reasoning in multimodal large language models (MLLMs). The benchmark decomposes performance into five skills: (i) reconstructing cube faces from images and text, (ii) choosing the optimal next move, (iii) predicting the outcome of a candidate move without applying it, (iv) executing multi-step plans while recovering from mistakes, and (v) detecting and revising one's own errors. Using a shared set of scrambled cube states, identical prompts and parsers, and a single distance-to-solved metric, we compare recent MLLMs side by side as a function of scramble depth. Across seven MLLMs, accuracy drops sharply with depth; once a trajectory stalls or diverges, models rarely recover, and high face-reconstruction accuracy does not guarantee competent action selection or multi-step execution. A pronounced closed- vs open-source gap emerges: the strongest closed model leads on both single-step perception tasks and multi-step control tasks, while open-weight models cluster near chance on the hardest settings; yet even the best MLLM degrades at higher cube complexity. A simple self-correction via reflective thinking yields modest gains but can also introduce overthinking. Cube Bench offers a compact, reproducible probe of sequential spatial reasoning in MLLMs.

Cube Bench: A Benchmark for Spatial Visual Reasoning in MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理