SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image Generation
作者: Sashuai Zhou, Qiang Zhou, Junpeng Ma, Yue Cao, Ruofan Hu, Ziang Zhang, Xiaoda Yang, Zhibin Wang, Jun Song, Cheng Yu, Bo Zheng, Zhou Zhao
分类: cs.CV, cs.AI
发布日期: 2026-03-23
💡 一句话要点
提出SpatialReward,提升文本到图像生成中细粒度空间一致性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到图像生成 空间关系建模 奖励模型 强化学习 视觉-语言模型 空间一致性 可验证性
📋 核心要点
- 现有文本到图像生成奖励模型对细粒度空间关系关注不足,导致生成图像在对象定位上存在不准确。
- SpatialReward通过提示分解、专家检测器和视觉-语言模型,显式地评估生成图像中的空间布局和空间关系。
- 实验表明,将SpatialReward融入强化学习训练,能显著提升生成图像的空间一致性和整体质量,更符合人类判断。
📝 摘要(中文)
本文提出SpatialReward,一种可验证的奖励模型,专门用于评估生成图像中的空间布局。该模型采用多阶段流程:首先,提示分解器从自由文本提示中提取实体、属性和空间元数据;然后,专家检测器提供对象位置和属性的精确视觉定位;最后,视觉-语言模型应用思维链推理来评估复杂的空间关系,这些关系对于基于规则的方法来说具有挑战性。为了更全面地评估生成图像中的空间关系,我们引入了SpatRelBench,一个涵盖对象属性、方向、对象间关系和渲染文本放置的基准。在Stable Diffusion和FLUX上的实验表明,将SpatialReward纳入强化学习训练可以持续提高空间一致性和整体生成质量,结果与人类判断更加一致。这些发现表明,可验证的奖励模型在实现文本到图像生成模型中更准确和可控的优化方面具有相当大的潜力。
🔬 方法详解
问题定义:文本到图像生成任务中,现有奖励模型难以准确评估图像中细粒度的空间关系,例如物体间的相对位置、方向、属性等。这导致生成的图像虽然整体看起来合理,但在物体摆放和空间关系上存在错误,影响了图像的真实性和可用性。
核心思路:SpatialReward的核心思路是将复杂的空间关系评估分解为多个可验证的步骤。首先,从文本提示中提取关键信息,然后利用专家检测器对图像中的物体进行精确定位和属性识别,最后利用视觉-语言模型进行推理,判断图像中的空间关系是否符合文本描述。这种分解的方式使得模型能够更准确地捕捉和评估细粒度的空间信息。
技术框架:SpatialReward包含三个主要模块:1) Prompt Decomposer (提示分解器):从文本提示中提取实体、属性和空间元数据。2) Expert Detectors (专家检测器):利用预训练的目标检测模型和属性识别模型,对生成图像中的物体进行定位和属性标注。3) Vision-Language Model (视觉-语言模型):使用视觉-语言模型(如预训练的CLIP或类似模型)结合思维链(Chain-of-Thought)推理,评估图像中物体间的空间关系是否符合文本描述。整个流程将复杂的空间关系评估分解为可验证的步骤,提高了评估的准确性和可靠性。
关键创新:SpatialReward的关键创新在于其可验证的空间奖励建模方法。它不是直接评估整个图像的空间关系,而是通过分解提示、精确检测和视觉-语言推理,将评估过程分解为多个可验证的步骤。这种方法使得模型能够更准确地捕捉和评估细粒度的空间信息,并提供可解释的评估结果。与现有方法相比,SpatialReward更关注图像中物体间的空间关系,并能更准确地评估这些关系是否符合文本描述。
关键设计:SpatialReward的关键设计包括:1) 提示分解器的设计:需要能够准确地从自由文本提示中提取关键的实体、属性和空间元数据。2) 专家检测器的选择和训练:需要选择或训练能够准确检测和识别图像中物体的检测器,并确保检测结果的准确性。3) 视觉-语言模型的选择和微调:需要选择合适的视觉-语言模型,并根据具体的任务进行微调,使其能够准确地评估图像中的空间关系。4) SpatRelBench基准的构建:该基准用于全面评估模型在对象属性、方向、对象间关系和渲染文本放置等方面的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,将SpatialReward应用于Stable Diffusion和FLUX模型,能够显著提高生成图像的空间一致性和整体质量。通过与人工评估对比,发现使用SpatialReward训练的模型生成的图像更符合人类的判断标准。SpatRelBench基准测试也验证了SpatialReward在评估细粒度空间关系方面的有效性。
🎯 应用场景
SpatialReward可应用于各种需要精确空间布局的文本到图像生成场景,例如:室内设计、游戏场景生成、广告设计等。它能够提高生成图像的真实感和可用性,减少人工干预,并为用户提供更可控的图像生成体验。未来,该技术可进一步扩展到视频生成、3D场景生成等领域。
📄 摘要(原文)
Recent advances in text-to-image (T2I) generation via reinforcement learning (RL) have benefited from reward models that assess semantic alignment and visual quality. However, most existing reward models pay limited attention to fine-grained spatial relationships, often producing images that appear plausible overall yet contain inaccuracies in object positioning. In this work, we present \textbf{SpatialReward}, a verifiable reward model explicitly designed to evaluate spatial layouts in generated images. SpatialReward adopts a multi-stage pipeline: a \emph{Prompt Decomposer} extracts entities, attributes, and spatial metadata from free-form prompts; expert detectors provide accurate visual grounding of object positions and attributes; and a vision-language model applies chain-of-thought reasoning over grounded observations to assess complex spatial relations that are challenging for rule-based methods. To more comprehensively evaluate spatial relationships in generated images, we introduce \textbf{SpatRelBench}, a benchmark covering object attributes, orientation, inter-object relations, and rendered text placement. Experiments on Stable Diffusion and FLUX show that incorporating SpatialReward into RL training consistently improves spatial consistency and overall generation quality, with results aligned more closely to human judgments. These findings indicate that verifiable reward models hold considerable potential for enabling more accurate and controllable optimization in text-to-image generation models.