WorldGrow: Generating Infinite 3D World
作者: Sikuang Li, Chen Yang, Jiemin Fang, Taoran Yi, Jia Lu, Jiazhong Cen, Lingxi Xie, Wei Shen, Qi Tian
分类: cs.CV, cs.GR
发布日期: 2025-10-24
备注: Project page: https://world-grow.github.io/ Code: https://github.com/world-grow/WorldGrow
💡 一句话要点
WorldGrow:提出无限3D世界生成框架,解决场景级生成难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D场景生成 无限扩展 分层框架 场景块修复 预训练模型 几何重建 3D-FRONT数据集
📋 核心要点
- 现有3D场景生成方法在几何一致性、可扩展性以及场景级应用方面存在局限性,难以生成大型连续且逼真的3D世界。
- WorldGrow利用预训练3D模型的先验知识,通过分层框架进行结构化场景块生成,实现无限3D场景的合成与扩展。
- 实验表明,WorldGrow在几何重建方面达到SOTA性能,并能生成具有照片级真实感和结构一致性的无限场景。
📝 摘要(中文)
本文旨在解决无限可扩展3D世界的生成问题,即生成具有连贯几何结构和逼真外观的大型连续环境。现有方法面临诸多挑战:2D-lifting方法存在跨视图的几何和外观不一致性,3D隐式表示难以扩展,而当前的3D基础模型主要以对象为中心,限制了它们在场景级生成中的应用。我们的核心思想是利用预训练3D模型中强大的生成先验知识来进行结构化场景块生成。为此,我们提出了WorldGrow,一个用于无界3D场景合成的分层框架。我们的方法包含三个核心组件:(1)一个数据整理流程,用于提取高质量的场景块进行训练,使3D结构化潜在表示适用于场景生成;(2)一个3D块修复机制,能够实现上下文感知的场景扩展;(3)一个由粗到精的生成策略,确保全局布局的合理性以及局部几何/纹理的逼真度。在大型3D-FRONT数据集上的评估表明,WorldGrow在几何重建方面实现了SOTA性能,同时独特地支持具有照片级真实感和结构一致性输出的无限场景生成。这些结果突显了其构建大规模虚拟环境的能力以及构建未来世界模型的潜力。
🔬 方法详解
问题定义:现有方法在生成无限可扩展的3D世界时面临挑战。2D-lifting方法在不同视角下产生几何和外观的不一致性。3D隐式表示方法难以扩展到大型场景。现有的3D基础模型主要关注对象级别,缺乏场景级别的生成能力。因此,如何生成具有连贯几何结构和逼真外观的大型连续3D环境是一个亟待解决的问题。
核心思路:WorldGrow的核心思路是利用预训练3D模型中蕴含的强大生成先验知识,并将其应用于结构化的场景块生成。通过将场景分解为可重复利用的、具有语义信息的块,并利用预训练模型学习到的先验知识来指导这些块的生成和组合,从而实现无限场景的扩展。这种方法避免了直接生成整个场景的复杂性,并保证了场景的结构一致性和真实感。
技术框架:WorldGrow采用分层框架,包含三个主要组件:1) 数据整理流程:用于从现有3D数据集中提取高质量的场景块,并构建适用于场景生成的3D结构化潜在表示。2) 3D块修复机制:用于在已知场景块的上下文信息下,生成新的场景块,从而实现场景的扩展。3) 粗到精的生成策略:首先生成场景的粗略布局,然后逐步细化几何和纹理细节,确保全局布局的合理性和局部几何/纹理的逼真度。
关键创新:WorldGrow的关键创新在于其分层生成框架和3D块修复机制。分层框架允许从粗到精地生成场景,从而保证了全局和局部的连贯性。3D块修复机制则能够根据上下文信息生成新的场景块,从而实现无限场景的扩展。此外,利用预训练3D模型的先验知识也显著提升了生成场景的质量。
关键设计:数据整理流程包括对3D-FRONT数据集进行处理,提取高质量的房间和家具模型,并构建场景块。3D块修复机制可能采用生成对抗网络(GAN)或变分自编码器(VAE)等模型,并结合注意力机制来关注上下文信息。粗到精的生成策略可能采用多分辨率表示或逐步细化的网络结构。损失函数可能包括几何损失、纹理损失和对抗损失等,以保证生成场景的质量。
📊 实验亮点
WorldGrow在3D-FRONT数据集上进行了评估,并在几何重建方面取得了SOTA性能。更重要的是,WorldGrow能够生成具有照片级真实感和结构一致性的无限场景,这在现有方法中是独一无二的。实验结果表明,WorldGrow能够有效地利用预训练3D模型的先验知识,并生成高质量的3D场景。
🎯 应用场景
WorldGrow具有广泛的应用前景,可用于构建大规模虚拟环境,例如虚拟现实游戏、城市规划模拟、机器人导航等。该技术能够自动生成逼真且结构合理的3D场景,降低了人工建模的成本和时间。未来,WorldGrow有望成为构建未来世界模型的重要组成部分,为人工智能和机器人技术的发展提供强大的支持。
📄 摘要(原文)
We tackle the challenge of generating the infinitely extendable 3D world -- large, continuous environments with coherent geometry and realistic appearance. Existing methods face key challenges: 2D-lifting approaches suffer from geometric and appearance inconsistencies across views, 3D implicit representations are hard to scale up, and current 3D foundation models are mostly object-centric, limiting their applicability to scene-level generation. Our key insight is leveraging strong generation priors from pre-trained 3D models for structured scene block generation. To this end, we propose WorldGrow, a hierarchical framework for unbounded 3D scene synthesis. Our method features three core components: (1) a data curation pipeline that extracts high-quality scene blocks for training, making the 3D structured latent representations suitable for scene generation; (2) a 3D block inpainting mechanism that enables context-aware scene extension; and (3) a coarse-to-fine generation strategy that ensures both global layout plausibility and local geometric/textural fidelity. Evaluated on the large-scale 3D-FRONT dataset, WorldGrow achieves SOTA performance in geometry reconstruction, while uniquely supporting infinite scene generation with photorealistic and structurally consistent outputs. These results highlight its capability for constructing large-scale virtual environments and potential for building future world models.