FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow
作者: Zhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang
分类: cs.CV
发布日期: 2026-03-20
💡 一句话要点
FlowScene:提出多模态图整流流模型,实现风格一致的室内场景生成。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 场景生成 多模态图 整流流模型 风格一致性 室内场景
📋 核心要点
- 现有方法忽略物体级控制,且难以保证场景级风格一致性,限制了场景生成技术的实用性。
- FlowScene通过紧耦合的整流流模型,在多模态图上进行协同推理,实现对物体形状、纹理和关系的细粒度控制。
- 实验结果表明,FlowScene在生成真实感、风格一致性和人类偏好对齐方面均优于现有方法。
📝 摘要(中文)
本文提出FlowScene,一个三分支场景生成模型,该模型以多模态图为条件,协同生成场景布局、物体形状和物体纹理。其核心是一个紧耦合的整流流模型,在生成过程中交换物体信息,从而实现跨图的协同推理。这使得能够对物体的形状、纹理和关系进行细粒度的控制,同时在结构和外观上强制执行场景级的风格一致性。大量实验表明,FlowScene在生成真实感、风格一致性以及与人类偏好的一致性方面,优于基于语言条件和基于图条件的基线方法。
🔬 方法详解
问题定义:现有场景生成方法,特别是基于语言驱动的检索方法,虽然可以从大型物体数据库中组合出看似合理的场景,但缺乏对物体层面的精细控制,并且难以保证场景级别的风格一致性。基于图的方法虽然能够通过显式建模关系来提供更高的物体可控性和整体一致性,但难以生成高质量的纹理结果,限制了其在实际应用中的价值。
核心思路:FlowScene的核心思路是利用多模态图作为条件,通过一个紧耦合的整流流模型,协同生成场景布局、物体形状和物体纹理。该模型在生成过程中不断交换物体信息,从而实现跨图的协同推理,保证场景在结构和外观上的风格一致性。
技术框架:FlowScene是一个三分支的生成模型,包含以下主要模块:1) 场景布局生成分支:负责生成场景中物体的布局;2) 物体形状生成分支:负责生成每个物体的三维形状;3) 物体纹理生成分支:负责生成每个物体的纹理。这三个分支通过一个紧耦合的整流流模型进行信息交换,实现协同生成。整个流程以多模态图作为输入,该图包含了场景中物体之间的关系信息以及物体的属性信息。
关键创新:FlowScene的关键创新在于提出了一个紧耦合的整流流模型,用于在场景布局、物体形状和物体纹理三个分支之间进行信息交换。这种紧耦合的设计使得模型能够进行跨图的协同推理,从而更好地保证场景的风格一致性。与现有方法相比,FlowScene能够实现对物体形状、纹理和关系的细粒度控制,同时保证场景级别的风格一致性。
关键设计:FlowScene使用了多模态图来表示场景信息,其中节点表示物体,边表示物体之间的关系。整流流模型采用了多层神经网络结构,用于学习物体之间的依赖关系。损失函数包括布局损失、形状损失、纹理损失和风格一致性损失,用于约束模型的生成结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FlowScene在生成真实感、风格一致性以及与人类偏好的一致性方面,均优于基于语言条件和基于图条件的基线方法。具体来说,FlowScene在FID (Fréchet Inception Distance) 指标上取得了显著的提升,表明其生成的场景更加逼真。同时,FlowScene在风格一致性评估指标上也优于其他方法,表明其能够更好地保证场景的风格一致性。
🎯 应用场景
FlowScene在室内设计、游戏开发、虚拟现实等领域具有广泛的应用前景。它可以用于自动生成逼真的室内场景,为用户提供个性化的设计方案。此外,FlowScene还可以用于训练机器人,使其能够在虚拟环境中学习如何与物体进行交互。
📄 摘要(原文)
Scene generation has extensive industrial applications, demanding both high realism and precise control over geometry and appearance. Language-driven retrieval methods compose plausible scenes from a large object database, but overlook object-level control and often fail to enforce scene-level style coherence. Graph-based formulations offer higher controllability over objects and inform holistic consistency by explicitly modeling relations, yet existing methods struggle to produce high-fidelity textured results, thereby limiting their practical utility. We present FlowScene, a tri-branch scene generative model conditioned on multimodal graphs that collaboratively generates scene layouts, object shapes, and object textures. At its core lies a tight-coupled rectified flow model that exchanges object information during generation, enabling collaborative reasoning across the graph. This enables fine-grained control of objects' shapes, textures, and relations while enforcing scene-level style coherence across structure and appearance. Extensive experiments show that FlowScene outperforms both language-conditioned and graph-conditioned baselines in terms of generation realism, style consistency, and alignment with human preferences.