Cube Bench: A Benchmark for Spatial Visual Reasoning in MLLMs
作者: Dhruv Anand, Ehsan Shareghi
分类: cs.CL, cs.AI, cs.CV
发布日期: 2025-12-23
备注: 27 pages, 5 figures, 9 tables. Cube available at https://github.com/dana-23/cube-bench
💡 一句话要点
提出Cube Bench:用于评估多模态大语言模型空间视觉推理能力的魔方基准测试。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 空间推理 序列推理 魔方 基准测试
📋 核心要点
- 现有的多模态大语言模型在空间和序列推理方面存在不足,尤其是在复杂任务中。
- Cube Bench通过魔方这一经典问题,将空间推理分解为多个可评估的技能,从而系统地测试MLLM的能力。
- 实验表明,即使是最先进的MLLM在魔方复杂度增加时性能也会显著下降,开源模型与闭源模型存在差距。
📝 摘要(中文)
本文提出Cube Bench,一个用于评估多模态大语言模型(MLLMs)在空间和序列推理能力的魔方基准测试。该基准将性能分解为五个技能:(i)从图像和文本重建魔方表面,(ii)选择最佳下一步动作,(iii)在不应用候选动作的情况下预测其结果,(iv)执行多步计划并在错误中恢复,以及(v)检测和修改自身错误。使用一组共享的打乱魔方状态、相同的提示和解析器以及单一的距离解决度量,我们并排比较了七个最新的MLLM,作为打乱深度的函数。结果表明,准确率随着深度急剧下降;一旦轨迹停滞或发散,模型很少恢复,并且高表面重建准确率并不能保证有效的动作选择或多步执行。闭源模型和开源模型之间存在明显的差距:最强的闭源模型在单步感知任务和多步控制任务中都处于领先地位,而开源模型在最困难的设置中接近随机水平;然而,即使是最好的MLLM也会在更高的魔方复杂度下退化。通过反思性思维进行简单的自我纠正会产生适度的收益,但也可能导致过度思考。Cube Bench 为 MLLM 中的序列空间推理提供了一个紧凑、可重现的探针。
🔬 方法详解
问题定义:论文旨在评估多模态大语言模型(MLLMs)在空间和序列推理方面的能力。现有方法缺乏一个专门针对空间推理的基准测试,无法系统地评估MLLMs在复杂环境下的推理能力。魔方作为一个经典的空间推理问题,可以很好地模拟真实世界中的复杂任务,但缺乏标准化的评估流程。
核心思路:论文的核心思路是利用魔方作为评估MLLMs空间推理能力的载体,并设计了一套标准化的评估流程。通过将魔方问题分解为多个子任务,例如表面重建、动作选择、结果预测、多步执行和错误纠正,可以更细粒度地评估MLLMs在不同方面的能力。标准化的提示、解析器和评估指标确保了实验的可重复性和可比性。
技术框架:Cube Bench的整体框架包括以下几个主要模块:1) 魔方状态生成器:生成不同复杂度的打乱魔方状态。2) 提示工程:设计标准化的提示,引导MLLMs完成各个子任务。3) MLLM推理:使用MLLMs对魔方状态进行推理,并生成相应的动作序列。4) 解析器:将MLLMs生成的动作序列解析为可执行的魔方操作。5) 评估指标:使用距离解决度量来评估MLLMs的性能。
关键创新:Cube Bench的关键创新在于:1) 提出了一个专门针对MLLMs空间推理能力的魔方基准测试。2) 将魔方问题分解为多个可评估的子任务,实现了细粒度的性能评估。3) 设计了标准化的评估流程,确保了实验的可重复性和可比性。4) 探索了自我纠正机制对MLLMs性能的影响。
关键设计:关键设计包括:1) 使用Kociemba算法生成不同复杂度的打乱魔方状态。2) 设计了针对不同子任务的标准化提示,例如“描述魔方的六个面”和“下一步应该执行哪个动作”。3) 使用距离解决度量(例如HTM)来评估MLLMs的性能。4) 探索了基于反思性思维的自我纠正机制,通过让MLLMs反思自己的错误并重新生成动作序列来提高性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MLLMs在Cube Bench上的性能随着魔方复杂度的增加而显著下降。闭源模型在单步感知和多步控制任务中表现优于开源模型。简单的自我纠正机制可以带来适度的性能提升,但过度思考可能会导致性能下降。即使是最先进的MLLM在解决复杂魔方问题时仍然面临挑战。
🎯 应用场景
Cube Bench可用于评估和比较不同MLLMs的空间推理能力,指导模型设计和训练。该基准测试的思路可以推广到其他空间推理任务,例如机器人导航、三维场景理解和虚拟现实等领域,促进相关技术的发展和应用。
📄 摘要(原文)
We introduce Cube Bench, a Rubik's-cube benchmark for evaluating spatial and sequential reasoning in multimodal large language models (MLLMs). The benchmark decomposes performance into five skills: (i) reconstructing cube faces from images and text, (ii) choosing the optimal next move, (iii) predicting the outcome of a candidate move without applying it, (iv) executing multi-step plans while recovering from mistakes, and (v) detecting and revising one's own errors. Using a shared set of scrambled cube states, identical prompts and parsers, and a single distance-to-solved metric, we compare recent MLLMs side by side as a function of scramble depth. Across seven MLLMs, accuracy drops sharply with depth; once a trajectory stalls or diverges, models rarely recover, and high face-reconstruction accuracy does not guarantee competent action selection or multi-step execution. A pronounced closed- vs open-source gap emerges: the strongest closed model leads on both single-step perception tasks and multi-step control tasks, while open-weight models cluster near chance on the hardest settings; yet even the best MLLM degrades at higher cube complexity. A simple self-correction via reflective thinking yields modest gains but can also introduce overthinking. Cube Bench offers a compact, reproducible probe of sequential spatial reasoning in MLLMs.