OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder
作者: Sensen Gao, Zhaoqing Wang, Qihang Cao, Dongdong Yu, Changhu Wang, Tongliang Liu, Mingming Gong, Jiawang Bian
分类: cs.CV
发布日期: 2026-03-17
备注: Code: https://github.com/SensenGao/OneWorld
🔗 代码/项目: GITHUB
💡 一句话要点
OneWorld:提出3D统一表示自编码器,提升三维场景生成跨视角一致性。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 三维场景生成 扩散模型 跨视角一致性 自编码器 3D表示学习
📋 核心要点
- 现有3D场景生成方法在2D潜在空间操作,难以保证跨视角表观和几何一致性。
- OneWorld在3D表示空间内进行扩散,利用3D统一表示自编码器学习统一的3D潜在空间。
- 引入跨视角对应一致性损失和流形漂移强制,提升跨视角一致性并减轻训练推理偏差。
📝 摘要(中文)
现有的基于扩散的三维场景生成方法主要在2D图像/视频潜在空间中运行,这使得维持跨视角的表观和几何一致性具有内在的挑战性。为了弥合这一差距,我们提出了OneWorld,一个直接在连贯的3D表示空间内执行扩散的框架。我们方法的核心是3D统一表示自编码器(3D-URAE);它利用预训练的3D基础模型,并通过将外观和语义提炼到统一的3D潜在空间中来增强其以几何为中心的特性。此外,我们引入了token级别的跨视角对应(CVC)一致性损失,以显式地加强跨视角的结构对齐,并提出了流形漂移强制(MDF)来减轻训练-推理暴露偏差,并通过混合漂移的和原始的表示来塑造一个鲁棒的3D流形。综合实验表明,与最先进的基于2D的方法相比,OneWorld生成了具有卓越跨视角一致性的高质量3D场景。
🔬 方法详解
问题定义:现有基于扩散模型的三维场景生成方法,通常在2D图像或视频的潜在空间中进行,这导致难以维持不同视角下生成结果的表观和几何一致性。这种不一致性限制了生成场景的真实感和可用性。现有方法缺乏对3D结构的直接建模,导致生成结果在不同视角下出现不协调的现象。
核心思路:OneWorld的核心思路是在一个统一的3D表示空间中直接进行扩散过程。通过学习一个能够同时编码几何、外观和语义信息的3D潜在空间,OneWorld能够生成具有更好跨视角一致性的3D场景。该方法利用预训练的3D基础模型作为先验知识,并在此基础上进行改进,以更好地适应场景生成任务。
技术框架:OneWorld框架主要包含以下几个模块:1) 3D统一表示自编码器(3D-URAE):用于学习统一的3D潜在空间,将几何、外观和语义信息编码到该空间中。2) 扩散模型:在3D潜在空间中进行扩散和逆扩散过程,生成新的3D场景表示。3) 跨视角对应(CVC)一致性损失:用于显式地加强跨视角的结构对齐。4) 流形漂移强制(MDF):用于减轻训练-推理暴露偏差,并塑造一个鲁棒的3D流形。
关键创新:OneWorld的关键创新在于:1) 提出了3D统一表示自编码器(3D-URAE),能够学习包含几何、外观和语义信息的统一3D潜在空间。2) 引入了token级别的跨视角对应(CVC)一致性损失,显式地加强跨视角的结构对齐。3) 提出了流形漂移强制(MDF),减轻训练-推理暴露偏差,并塑造一个鲁棒的3D流形。与现有方法相比,OneWorld直接在3D空间中进行扩散,避免了2D潜在空间带来的跨视角不一致问题。
关键设计:3D-URAE利用预训练的3D基础模型,并通过额外的编码器分支提取外观和语义信息,然后将这些信息融合到3D潜在空间中。CVC损失通过匹配不同视角下对应token的特征向量来加强结构对齐。MDF通过在训练过程中混合原始和漂移的表示来扩展数据分布,从而提高模型的泛化能力。扩散模型采用标准的扩散模型架构,并根据3D潜在空间的特性进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OneWorld在跨视角一致性方面显著优于现有的基于2D的方法。具体来说,OneWorld在多个数据集上取得了state-of-the-art的结果,并且在视觉质量和几何一致性方面都有显著提升。通过消融实验验证了CVC损失和MDF的有效性。定性结果也表明,OneWorld能够生成具有更好细节和更真实感的3D场景。
🎯 应用场景
OneWorld在虚拟现实、增强现实、游戏开发、机器人导航等领域具有广泛的应用前景。它可以用于生成高质量、跨视角一致的3D场景,为用户提供更逼真的沉浸式体验。此外,该方法还可以用于训练机器人,使其能够在复杂环境中进行导航和交互。未来,OneWorld可以进一步扩展到生成动态3D场景,并与其他模态的信息进行融合,例如文本、音频等。
📄 摘要(原文)
Existing diffusion-based 3D scene generation methods primarily operate in 2D image/video latent spaces, which makes maintaining cross-view appearance and geometric consistency inherently challenging. To bridge this gap, we present OneWorld, a framework that performs diffusion directly within a coherent 3D representation space. Central to our approach is the 3D Unified Representation Autoencoder (3D-URAE); it leverages pretrained 3D foundation models and augments their geometry-centric nature by injecting appearance and distilling semantics into a unified 3D latent space. Furthermore, we introduce token-level Cross-View-Correspondence (CVC) consistency loss to explicitly enforce structural alignment across views, and propose Manifold-Drift Forcing (MDF) to mitigate train-inference exposure bias and shape a robust 3D manifold by mixing drifted and original representations. Comprehensive experiments demonstrate that OneWorld generates high-quality 3D scenes with superior cross-view consistency compared to state-of-the-art 2D-based methods. Our code will be available at https://github.com/SensenGao/OneWorld.