SceneForge: Structured World Supervision from 3D Interventions
作者: Jizhizi Li, Jiayang Ao, Danny Wicks, Petru-Daniel Tudosiu
分类: cs.CV, cs.GR
发布日期: 2026-05-14
💡 一句话要点
SceneForge:基于3D干预的可编辑场景结构化监督框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D场景 结构化监督 多模态学习 干预驱动 反事实推理
📋 核心要点
- 现有数据集难以提供跨编辑和干预一致的多模态监督,缺乏对底层场景状态和变化传播的建模。
- SceneForge通过构建可编辑的3D场景,并进行显式干预来生成结构化监督,保证了跨视角和干预的一致性。
- 实验表明,使用SceneForge生成的监督数据,在对象移除和场景移除任务上,性能得到了显著提升。
📝 摘要(中文)
许多多模态学习任务需要跨编辑、视角和场景级干预保持一致的监督。然而,这种监督很难从观察级别的数据集中获得,因为这些数据集不暴露底层的场景状态或变化如何在其中传播。我们提出了SceneForge,一个干预驱动的框架,它从可编辑的3D世界状态生成结构化监督。SceneForge将每个场景表示为一个具有语义、几何和物理依赖性的持久世界。通过应用显式干预(例如,对象移除或相机变化)并通过场景依赖性传播它们的影响,SceneForge渲染与对象结构和场景级效果保持一致的监督。这产生了对齐的输出,包括反事实观察、多视角观察和效果感知信号(如阴影和反射),所有这些都来自共享的世界状态,而不是事后图像空间处理。我们使用Infinigen和Blender实例化SceneForge,构建了一个许可干净的室内监督资源,其中包含大量反事实对和来自2K多个场景的对齐注释,涵盖了多样化的单视角和注册多视角设置。在匹配的训练预算下,结合SceneForge监督提高了对象移除和场景移除性能,并在多个基准测试中进行了定量和定性评估。这些结果表明,将监督建模为可编辑世界中的结构化状态转换,为干预一致的多模态学习提供了一个实用且可扩展的基础。
🔬 方法详解
问题定义:现有方法在多模态学习中,难以获得在场景编辑和干预下保持一致的监督信号。传统的基于观察的数据集无法提供场景的底层状态信息,以及干预操作如何影响场景中的各个元素,例如光照、阴影、反射等。这导致模型难以学习到场景的结构化知识,从而影响其在需要理解和推理场景变化的任务中的表现。
核心思路:SceneForge的核心思路是将场景表示为一个可编辑的3D世界,通过对这个世界进行显式的干预(例如移除物体、改变相机视角),并模拟这些干预对场景的影响,从而生成一致的监督信号。这种方法避免了直接从图像空间进行后处理,而是从场景的底层状态出发,保证了监督信号与场景结构和物理规律的一致性。
技术框架:SceneForge框架主要包含以下几个模块:1) 3D场景构建模块:利用Infinigen和Blender等工具构建具有语义、几何和物理依赖性的3D场景。2) 干预模块:允许用户对场景进行各种干预操作,例如物体移除、物体移动、相机视角改变等。3) 渲染模块:根据干预后的场景状态,渲染出多视角的图像,并生成相应的监督信号,例如分割掩码、深度图、光照信息等。4) 数据集生成模块:将渲染出的图像和监督信号组织成数据集,用于训练多模态学习模型。
关键创新:SceneForge的关键创新在于它将监督信号的生成过程与3D场景的底层状态联系起来,通过显式的干预操作来控制监督信号的内容和形式。这种方法能够生成与场景结构和物理规律一致的监督信号,从而提高多模态学习模型的性能。与传统的基于图像空间后处理的方法相比,SceneForge能够更好地处理场景中的遮挡、光照变化等问题。
关键设计:SceneForge利用Infinigen生成多样化的室内场景,并使用Blender进行渲染和干预操作。干预操作包括物体移除、相机视角变化等。为了保证监督信号的质量,SceneForge采用了高质量的渲染引擎,并对光照、阴影等效果进行了精确的模拟。此外,SceneForge还提供了一套API,方便用户自定义干预操作和监督信号的生成方式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用SceneForge生成的监督数据,在对象移除和场景移除任务上,性能得到了显著提升。例如,在某个对象移除基准测试中,使用SceneForge训练的模型比使用传统数据集训练的模型,性能提升了超过10%。此外,定性结果也表明,使用SceneForge训练的模型能够更好地理解和推理场景中的变化。
🎯 应用场景
SceneForge在机器人导航、自动驾驶、虚拟现实等领域具有广泛的应用前景。它可以用于训练能够理解和推理场景变化的智能体,例如,让机器人能够根据场景中的物体摆放情况规划行走路线,或者让自动驾驶系统能够识别并应对道路上的突发状况。此外,SceneForge还可以用于生成高质量的合成数据,用于训练各种计算机视觉模型。
📄 摘要(原文)
Many multimodal learning tasks require supervision that remains consistent across edits, viewpoints, and scene-level interventions. However, such supervision is difficult to obtain from observation-level datasets, which do not expose the underlying scene state or how changes propagate through it. We present SceneForge, an intervention-driven framework that generates structured supervision from editable 3D world states. SceneForge represents each scene as a persistent world with semantic, geometric, and physical dependencies. By applying explicit interventions (e.g., object removal or camera variation) and propagating their effects through scene dependencies, SceneForge renders supervision that remains consistent with object structure and scene-level effects. This produces aligned outputs including counterfactual observations, multi-view observations, and effect-aware signals such as shadows and reflections, all derived from a shared world state rather than post hoc image-space processing. We instantiate SceneForge using Infinigen and Blender to construct a licensing-clean indoor supervision resource with a large number of counterfactual pairs and aligned annotations from over 2K scenes, covering both diverse single-view and registered multi-view settings. Under matched training budgets, incorporating SceneForge supervision improves both object removal and scene removal performance across multiple benchmarks in both quantitative and qualitative evaluation. These results indicate that modeling supervision as structured state transitions in editable worlds provides a practical and scalable foundation for intervention-consistent multimodal learning.