SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

📄 arXiv: 2508.15769v2 📥 PDF

作者: Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie

分类: cs.CV, cs.AI

发布日期: 2025-08-21 (更新: 2025-12-09)

备注: Accepted by 3DV 2026; Project Page: https://mengmouxu.github.io/SceneGen

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

SceneGen:单图像前向传播的3D场景生成框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D场景生成 单图像重建 深度学习 特征聚合 位置预测

📋 核心要点

  1. 现有3D内容生成方法通常需要额外的优化或依赖于资产检索,效率较低。
  2. SceneGen通过特征聚合模块整合局部和全局信息,结合位置预测头,实现单次前向传播生成3D资产。
  3. 实验表明,SceneGen在单图像和多图像输入下均表现出高效和鲁棒性,为3D内容生成提供新方案。

📝 摘要(中文)

本文提出SceneGen,一个新颖的框架,它以场景图像和相应的对象掩码作为输入,同时生成具有几何体和纹理的多个3D资产。SceneGen无需额外的优化或资产检索即可运行。该框架引入了一种新的特征聚合模块,该模块集成了来自视觉和几何编码器的局部和全局场景信息。结合位置预测头,这使得能够在单个前向传播中生成3D资产及其相对空间位置。SceneGen可以直接扩展到多图像输入场景。尽管仅在单图像输入上进行训练,但当提供多个图像时,该架构可产生改进的生成性能。大量的定量和定性评估证实了该方法的效率和鲁棒性。该范例为高质量3D内容生成提供了一种新的解决方案,有可能促进其在下游任务中的实际应用。

🔬 方法详解

问题定义:论文旨在解决从单张场景图像中生成多个具有几何和纹理信息的3D资产的问题。现有方法通常需要额外的优化步骤(例如迭代优化)或者依赖于预先存在的3D资产库进行检索,这限制了生成效率和灵活性。这些方法难以实现快速且高质量的3D场景生成。

核心思路:SceneGen的核心思路是通过一个端到端的神经网络,直接从输入的场景图像和对象掩码预测出场景中多个3D资产的几何形状、纹理以及它们之间的相对位置关系。通过学习图像的视觉特征和几何信息,网络能够理解场景的结构,并生成符合场景上下文的3D模型。

技术框架:SceneGen的整体架构包含以下几个主要模块:1) 特征提取模块:使用视觉编码器和几何编码器分别提取图像的视觉特征和几何特征。2) 特征聚合模块:将局部和全局场景信息进行整合,生成更全面的场景表示。3) 3D资产生成模块:基于聚合后的特征,生成每个对象的3D几何形状和纹理。4) 位置预测头:预测各个3D资产在场景中的相对位置。整个流程通过一次前向传播完成,无需额外的优化或检索步骤。

关键创新:SceneGen的关键创新在于其特征聚合模块和位置预测头的设计。特征聚合模块能够有效地融合局部和全局信息,从而更好地理解场景的上下文。位置预测头则能够直接预测3D资产之间的相对位置关系,避免了传统方法中需要单独进行位置估计的步骤。此外,SceneGen还展示了对多图像输入的扩展能力,进一步提升了生成性能。

关键设计:特征聚合模块的具体实现细节未知,但推测可能使用了注意力机制或者其他融合策略来整合局部和全局特征。位置预测头的设计也未知,但可能采用了回归或者分类的方法来预测相对位置关系。损失函数的设计可能包括几何损失、纹理损失和位置损失,以保证生成3D资产的质量和空间布局的合理性。具体的网络结构细节和参数设置在论文中可能有所描述,但此处无法得知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过定量和定性实验验证了SceneGen的有效性。虽然具体的性能数据未知,但摘要中提到SceneGen在单图像和多图像输入下均表现出高效和鲁棒性,并且在多图像输入下能够提升生成性能。这表明SceneGen在3D场景生成任务中具有显著的优势。

🎯 应用场景

SceneGen在VR/AR、游戏开发、机器人技术等领域具有广泛的应用前景。它可以用于快速生成虚拟场景,创建逼真的3D环境,以及为机器人提供场景理解和导航能力。该技术还可以应用于3D内容创作,例如自动生成3D模型和场景布局,从而降低3D内容制作的成本和门槛。

📄 摘要(原文)

3D content generation has recently attracted significant research interest, driven by its critical applications in VR/AR and embodied AI. In this work, we tackle the challenging task of synthesizing multiple 3D assets within a single scene image. Concretely, our contributions are fourfold: (i) we present SceneGen, a novel framework that takes a scene image and corresponding object masks as input, simultaneously producing multiple 3D assets with geometry and texture. Notably, SceneGen operates with no need for extra optimization or asset retrieval; (ii) we introduce a novel feature aggregation module that integrates local and global scene information from visual and geometric encoders within the feature extraction module. Coupled with a position head, this enables the generation of 3D assets and their relative spatial positions in a single feedforward pass; (iii) we demonstrate SceneGen's direct extensibility to multi-image input scenarios. Despite being trained solely on single-image inputs, our architecture yields improved generation performance when multiple images are provided; and (iv) extensive quantitative and qualitative evaluations confirm the efficiency and robustness of our approach. We believe this paradigm offers a novel solution for high-quality 3D content generation, potentially advancing its practical applications in downstream tasks. The code and model will be publicly available at: https://mengmouxu.github.io/SceneGen.