Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

📄 arXiv: 2601.20354v1 📥 PDF

作者: Zengbin Wang, Xuecai Hu, Yong Wang, Feng Xiong, Man Zhang, Xiangxiang Chu

分类: cs.CV

发布日期: 2026-01-28

备注: Accepted by ICLR 2026


💡 一句话要点

提出SpatialGenEval基准与SpatialT2I数据集,提升文本生成图像模型空间智能

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本生成图像 空间智能 基准测试 数据集 空间推理 数据增强 模型微调

📋 核心要点

  1. 现有文本生成图像模型在处理复杂空间关系方面存在不足,现有评测基准缺乏对模型空间智能的有效评估。
  2. 论文提出SpatialGenEval基准和SpatialT2I数据集,通过信息密集的prompt设计,系统评估和提升模型的空间推理能力。
  3. 实验表明,使用SpatialT2I数据集微调现有模型,能够在空间关系生成方面取得显著的性能提升和更逼真的效果。

📝 摘要(中文)

本文提出SpatialGenEval,一个旨在系统评估文本生成图像(T2I)模型空间智能的新基准。现有基准由于prompt设计过于简短或信息稀疏,往往忽略了空间感知、推理和交互等关键方面。SpatialGenEval包含1230个信息密集的prompt,覆盖25个真实场景,每个prompt包含10个空间子领域和对应的10个多项选择问答对,范围从物体位置和布局到遮挡和因果关系。对21个先进模型的广泛评估表明,高阶空间推理仍然是主要瓶颈。此外,本文构建了SpatialT2I数据集,包含15400个文本-图像对,通过重写prompt来确保图像一致性,同时保持信息密度。在现有基础模型(如Stable Diffusion-XL、Uniworld-V1、OmniGen2)上进行微调,结果显示性能持续提升(+4.2%、+5.7%、+4.4%),并在空间关系中产生更逼真的效果,突出了以数据为中心的范式在T2I模型中实现空间智能的潜力。

🔬 方法详解

问题定义:文本生成图像(T2I)模型在生成高保真图像方面取得了显著进展,但它们在处理复杂的空间关系(例如,空间感知、推理或交互)时经常失败。现有的基准测试由于其prompt设计过于简短或信息稀疏,很大程度上忽略了这些关键方面。因此,如何系统地评估和提升T2I模型的空间智能是一个亟待解决的问题。

核心思路:论文的核心思路是通过构建一个信息密集的基准测试集(SpatialGenEval)和一个高质量的训练数据集(SpatialT2I),来系统地评估和提升T2I模型在空间关系理解和生成方面的能力。这种数据驱动的方法旨在弥补现有模型在空间推理方面的不足。

技术框架:该研究主要包含两个部分:SpatialGenEval基准测试和SpatialT2I数据集构建。SpatialGenEval基准测试包含1230个长prompt,覆盖25个真实场景,每个prompt包含10个空间子领域和对应的10个多项选择问答对。SpatialT2I数据集包含15400个文本-图像对,prompt经过重写以确保图像一致性,同时保持信息密度。研究人员使用SpatialT2I数据集对现有模型进行微调,并在SpatialGenEval上评估性能。

关键创新:该研究的关键创新在于其信息密集的prompt设计,这使得SpatialGenEval能够更全面地评估T2I模型的空间智能。此外,SpatialT2I数据集的构建采用了一种数据增强的方法,通过重写prompt来提高图像一致性,从而有效地提升了模型的训练效果。

关键设计:SpatialGenEval基准测试中的prompt设计涵盖了10个空间子领域,包括物体位置、布局、遮挡和因果关系等。SpatialT2I数据集的构建过程中,prompt的重写策略旨在保持信息密度,同时确保图像与文本描述的一致性。在模型微调过程中,研究人员使用了现有的基础模型(如Stable Diffusion-XL、Uniworld-V1、OmniGen2),并采用了标准的微调流程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在SpatialGenEval基准测试中,现有T2I模型在高阶空间推理方面存在明显瓶颈。使用SpatialT2I数据集对Stable Diffusion-XL、Uniworld-V1和OmniGen2等模型进行微调后,性能分别提升了4.2%、5.7%和4.4%,并在空间关系生成方面产生了更逼真的效果,验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于需要精确空间关系理解和生成的领域,例如机器人导航、虚拟现实、游戏开发和智能家居。通过提升T2I模型的空间智能,可以实现更逼真的场景生成、更智能的物体交互和更可靠的视觉推理,从而为这些领域带来更广泛的应用前景。

📄 摘要(原文)

Text-to-image (T2I) models have achieved remarkable success in generating high-fidelity images, but they often fail in handling complex spatial relationships, e.g., spatial perception, reasoning, or interaction. These critical aspects are largely overlooked by current benchmarks due to their short or information-sparse prompt design. In this paper, we introduce SpatialGenEval, a new benchmark designed to systematically evaluate the spatial intelligence of T2I models, covering two key aspects: (1) SpatialGenEval involves 1,230 long, information-dense prompts across 25 real-world scenes. Each prompt integrates 10 spatial sub-domains and corresponding 10 multi-choice question-answer pairs, ranging from object position and layout to occlusion and causality. Our extensive evaluation of 21 state-of-the-art models reveals that higher-order spatial reasoning remains a primary bottleneck. (2) To demonstrate that the utility of our information-dense design goes beyond simple evaluation, we also construct the SpatialT2I dataset. It contains 15,400 text-image pairs with rewritten prompts to ensure image consistency while preserving information density. Fine-tuned results on current foundation models (i.e., Stable Diffusion-XL, Uniworld-V1, OmniGen2) yield consistent performance gains (+4.2%, +5.7%, +4.4%) and more realistic effects in spatial relations, highlighting a data-centric paradigm to achieve spatial intelligence in T2I models.