OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder

作者: Sensen Gao, Zhaoqing Wang, Qihang Cao, Dongdong Yu, Changhu Wang, Tongliang Liu, Mingming Gong, Jiawang Bian

分类: cs.CV

发布日期: 2026-03-17

备注: Code: https://github.com/SensenGao/OneWorld

🔗 代码/项目: GITHUB

💡 一句话要点

OneWorld：提出3D统一表示自编码器，提升三维场景生成跨视角一致性。

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 三维场景生成 扩散模型 跨视角一致性 自编码器 3D表示学习

📋 核心要点

现有3D场景生成方法在2D潜在空间操作，难以保证跨视角表观和几何一致性。
OneWorld在3D表示空间内进行扩散，利用3D统一表示自编码器学习统一的3D潜在空间。
引入跨视角对应一致性损失和流形漂移强制，提升跨视角一致性并减轻训练推理偏差。

📝 摘要（中文）

现有的基于扩散的三维场景生成方法主要在2D图像/视频潜在空间中运行，这使得维持跨视角的表观和几何一致性具有内在的挑战性。为了弥合这一差距，我们提出了OneWorld，一个直接在连贯的3D表示空间内执行扩散的框架。我们方法的核心是3D统一表示自编码器（3D-URAE）；它利用预训练的3D基础模型，并通过将外观和语义提炼到统一的3D潜在空间中来增强其以几何为中心的特性。此外，我们引入了token级别的跨视角对应（CVC）一致性损失，以显式地加强跨视角的结构对齐，并提出了流形漂移强制（MDF）来减轻训练-推理暴露偏差，并通过混合漂移的和原始的表示来塑造一个鲁棒的3D流形。综合实验表明，与最先进的基于2D的方法相比，OneWorld生成了具有卓越跨视角一致性的高质量3D场景。

🔬 方法详解

问题定义：现有基于扩散模型的三维场景生成方法，通常在2D图像或视频的潜在空间中进行，这导致难以维持不同视角下生成结果的表观和几何一致性。这种不一致性限制了生成场景的真实感和可用性。现有方法缺乏对3D结构的直接建模，导致生成结果在不同视角下出现不协调的现象。

核心思路：OneWorld的核心思路是在一个统一的3D表示空间中直接进行扩散过程。通过学习一个能够同时编码几何、外观和语义信息的3D潜在空间，OneWorld能够生成具有更好跨视角一致性的3D场景。该方法利用预训练的3D基础模型作为先验知识，并在此基础上进行改进，以更好地适应场景生成任务。

技术框架：OneWorld框架主要包含以下几个模块：1) 3D统一表示自编码器（3D-URAE）：用于学习统一的3D潜在空间，将几何、外观和语义信息编码到该空间中。2) 扩散模型：在3D潜在空间中进行扩散和逆扩散过程，生成新的3D场景表示。3) 跨视角对应（CVC）一致性损失：用于显式地加强跨视角的结构对齐。4) 流形漂移强制（MDF）：用于减轻训练-推理暴露偏差，并塑造一个鲁棒的3D流形。

关键创新：OneWorld的关键创新在于：1) 提出了3D统一表示自编码器（3D-URAE），能够学习包含几何、外观和语义信息的统一3D潜在空间。2) 引入了token级别的跨视角对应（CVC）一致性损失，显式地加强跨视角的结构对齐。3) 提出了流形漂移强制（MDF），减轻训练-推理暴露偏差，并塑造一个鲁棒的3D流形。与现有方法相比，OneWorld直接在3D空间中进行扩散，避免了2D潜在空间带来的跨视角不一致问题。

关键设计：3D-URAE利用预训练的3D基础模型，并通过额外的编码器分支提取外观和语义信息，然后将这些信息融合到3D潜在空间中。CVC损失通过匹配不同视角下对应token的特征向量来加强结构对齐。MDF通过在训练过程中混合原始和漂移的表示来扩展数据分布，从而提高模型的泛化能力。扩散模型采用标准的扩散模型架构，并根据3D潜在空间的特性进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，OneWorld在跨视角一致性方面显著优于现有的基于2D的方法。具体来说，OneWorld在多个数据集上取得了state-of-the-art的结果，并且在视觉质量和几何一致性方面都有显著提升。通过消融实验验证了CVC损失和MDF的有效性。定性结果也表明，OneWorld能够生成具有更好细节和更真实感的3D场景。

🎯 应用场景

OneWorld在虚拟现实、增强现实、游戏开发、机器人导航等领域具有广泛的应用前景。它可以用于生成高质量、跨视角一致的3D场景，为用户提供更逼真的沉浸式体验。此外，该方法还可以用于训练机器人，使其能够在复杂环境中进行导航和交互。未来，OneWorld可以进一步扩展到生成动态3D场景，并与其他模态的信息进行融合，例如文本、音频等。

📄 摘要（原文）

Existing diffusion-based 3D scene generation methods primarily operate in 2D image/video latent spaces, which makes maintaining cross-view appearance and geometric consistency inherently challenging. To bridge this gap, we present OneWorld, a framework that performs diffusion directly within a coherent 3D representation space. Central to our approach is the 3D Unified Representation Autoencoder (3D-URAE); it leverages pretrained 3D foundation models and augments their geometry-centric nature by injecting appearance and distilling semantics into a unified 3D latent space. Furthermore, we introduce token-level Cross-View-Correspondence (CVC) consistency loss to explicitly enforce structural alignment across views, and propose Manifold-Drift Forcing (MDF) to mitigate train-inference exposure bias and shape a robust 3D manifold by mixing drifted and original representations. Comprehensive experiments demonstrate that OneWorld generates high-quality 3D scenes with superior cross-view consistency compared to state-of-the-art 2D-based methods. Our code will be available at https://github.com/SensenGao/OneWorld.

OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理