Exploring Spatial Intelligence from a Generative Perspective
作者: Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, Zekai Luo, Hao Zhong, Anzhou Li, Kaijun Wang, Jintao Rong, Yang Liu, Hao Chen, Tao Lin, Chunhua Shen
分类: cs.CV
发布日期: 2026-04-22
备注: Accepted by CVPR 2026. Project page: https://aim-uofa.github.io/GSI-Bench/
💡 一句话要点
提出GSI-Bench以评估生成空间智能能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生成空间智能 多模态模型 图像生成 空间约束 数据集构建 评估基准 空间理解 深度学习
📋 核心要点
- 现有的空间智能评估方法主要集中在理解层面,缺乏对生成能力的考量。
- 本文提出GSI-Bench,通过空间基础的图像编辑来量化生成空间智能,包含真实和合成数据集。
- 实验结果显示,微调模型后在合成和真实任务上均有显著提升,且改善了空间理解能力。
📝 摘要(中文)
空间智能对于多模态大型语言模型至关重要,但现有基准主要从理解的角度进行评估。本文探讨现代生成或统一多模态模型是否具备生成空间智能(GSI),即在图像生成过程中尊重和操作3D空间约束的能力。我们引入GSI-Bench,这是第一个旨在通过空间基础的图像编辑来量化GSI的基准。该基准包括两个互补组件:GSI-Real,一个通过3D先验引导生成和过滤管道构建的高质量真实世界数据集,以及GSI-Syn,一个具有可控空间操作和完全自动标注的大规模合成基准。实验表明,对统一多模态模型进行GSI-Syn的微调在合成和真实任务上均显著提升,并且改善下游空间理解能力。这为生成训练能够切实增强空间推理提供了明确证据,开辟了提升多模态模型空间智能的新路径。
🔬 方法详解
问题定义:本文旨在解决当前多模态模型在空间智能生成能力评估上的不足,现有方法缺乏对生成空间智能的量化和提升。
核心思路:通过引入GSI-Bench基准,结合真实和合成数据集,评估模型在图像生成过程中对3D空间约束的遵循和操作能力。
技术框架:GSI-Bench由两个主要组件组成:GSI-Real和GSI-Syn。GSI-Real是一个高质量的真实数据集,GSI-Syn则是一个大规模的合成基准,支持可控空间操作和自动标注。
关键创新:GSI-Bench是首个专门用于量化生成空间智能的基准,提供了一个统一的评估协议,能够进行模型无关的空间合规性和编辑保真度评估。
关键设计:在GSI-Syn中,设计了可控的空间操作和自动标注机制,确保数据集的规模和质量,同时在微调过程中采用了特定的损失函数以优化空间智能表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,微调统一多模态模型在GSI-Syn上后,模型在合成任务上性能提升超过30%,在真实任务上也有显著改善。此外,微调后模型的空间理解能力也得到了提升,验证了生成训练对空间推理的增强效果。
🎯 应用场景
该研究的潜在应用领域包括计算机视觉、机器人导航和增强现实等。通过提升多模态模型的空间智能能力,可以在自动驾驶、智能家居和虚拟现实等实际场景中实现更高效的空间理解与交互,具有重要的实际价值和未来影响。
📄 摘要(原文)
Spatial intelligence is essential for multimodal large language models, yet current benchmarks largely assess it only from an understanding perspective. We ask whether modern generative or unified multimodal models also possess generative spatial intelligence (GSI), the ability to respect and manipulate 3D spatial constraints during image generation, and whether such capability can be measured or improved. We introduce GSI-Bench, the first benchmark designed to quantify GSI through spatially grounded image editing. It consists of two complementary components: GSI-Real, a high-quality real-world dataset built via a 3D-prior-guided generation and filtering pipeline, and GSI-Syn, a large-scale synthetic benchmark with controllable spatial operations and fully automated labeling. Together with a unified evaluation protocol, GSI-Bench enables scalable, model-agnostic assessment of spatial compliance and editing fidelity. Experiments show that fine-tuning unified multimodal models on GSI-Syn yields substantial gains on both synthetic and real tasks and, strikingly, also improves downstream spatial understanding. This provides the first clear evidence that generative training can tangibly strengthen spatial reasoning, establishing a new pathway for advancing spatial intelligence in multimodal models.