Wanderland: Geometrically Grounded Simulation for Open-World Embodied AI

作者: Xinhao Liu, Jiaqi Li, Youming Deng, Ruxin Chen, Yingjia Zhang, Yifei Ma, Li Guo, Yiming Li, Jing Zhang, Chen Feng

分类: cs.CV, cs.RO

发布日期: 2025-11-25

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Wanderland：面向开放世界具身AI的几何校准仿真框架

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知 (Perception & SLAM)

关键词: 具身AI 仿真环境 开放世界 几何重建 多传感器融合 导航策略 新视角合成 Real-to-Sim

📋 核心要点

现有具身AI仿真环境在开放世界场景中存在几何和视觉上的sim-to-real差距，影响了策略学习和评估的可靠性。
Wanderland提出了一种real-to-sim框架，通过多传感器捕获、可靠重建和精确几何建模，缩小仿真与现实的差距。
实验表明，Wanderland数据集能够有效评估导航策略，并为3D重建和新视角合成模型提供基准测试。

📝 摘要（中文）

具身AI（如视觉导航）中，可复现的闭环评估仍然是一个主要瓶颈。一个有前景的解决方案是高保真仿真，它将逼真的传感器渲染与复杂、开放世界的城市环境中几何校准的交互相结合。尽管最近的video-3DGS方法简化了开放世界场景的捕获，但由于视觉和几何的sim-to-real差距较大，它们仍然不适合基准测试。为了应对这些挑战，我们引入了Wanderland，这是一个real-to-sim框架，具有多传感器捕获、可靠的重建、精确的几何形状和鲁棒的视角合成。使用此流程，我们整理了一个多样化的室内外城市场景数据集，并系统地演示了仅图像的流程如何扩展性差，几何质量如何影响新视角合成，以及所有这些如何不利地影响导航策略学习和评估可靠性。除了作为具身导航的可靠测试平台外，Wanderland丰富的原始传感器数据还允许对3D重建和新视角合成模型进行基准测试。我们的工作为开放世界具身AI中的可复现研究奠定了新的基础。

🔬 方法详解

问题定义：现有具身AI的仿真环境，尤其是在开放世界场景下，存在严重的sim-to-real差距，包括视觉渲染和几何结构上的差异。这导致在仿真环境中训练的导航策略难以直接迁移到真实世界，并且在仿真环境中的评估结果也可能不准确。现有的video-3DGS方法虽然简化了场景捕获，但仍然无法有效解决这些差距。

核心思路：Wanderland的核心思路是通过构建一个高质量的real-to-sim框架，尽可能地还原真实世界的几何结构和视觉信息。通过多传感器数据融合和精确的几何重建，减少仿真环境与真实环境之间的差异，从而提高导航策略学习和评估的可靠性。

技术框架：Wanderland框架主要包含以下几个阶段：1) 多传感器数据捕获：使用多种传感器（如RGB相机、深度相机、激光雷达等）同时采集场景数据。2) 可靠的3D重建：利用采集到的多模态数据，进行精确的3D场景重建，生成高质量的几何模型。3) 鲁棒的视角合成：基于重建的3D模型，实现高质量的新视角合成，生成逼真的图像。4) 数据集构建：将重建的场景数据整理成数据集，用于导航策略学习和评估。

关键创新：Wanderland的关键创新在于其real-to-sim的框架设计，以及对几何重建质量的重视。与以往仅依赖图像的重建方法不同，Wanderland利用多传感器数据融合，显著提高了重建的几何精度，从而减少了sim-to-real差距。此外，该框架还提供了丰富的原始传感器数据，方便研究者进行3D重建和新视角合成算法的基准测试。

关键设计：在多传感器数据融合方面，Wanderland可能采用了基于优化的方法，将不同传感器的数据对齐并融合。在几何重建方面，可能使用了SLAM或SfM等技术，并结合深度信息进行优化。在视角合成方面，可能使用了基于神经渲染的方法，以生成逼真的图像。具体的参数设置、损失函数和网络结构等技术细节，论文中可能有所描述，但此处无法得知。

📊 实验亮点

Wanderland数据集的实验结果表明，仅使用图像的重建方法在开放世界场景中表现不佳，几何质量对新视角合成有显著影响，并且这些因素都会影响导航策略学习和评估的可靠性。该数据集为具身导航提供了一个可靠的测试平台，并允许对3D重建和新视角合成模型进行基准测试，为未来的研究奠定了基础。

🎯 应用场景

Wanderland的研究成果可广泛应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。通过提供一个高质量的仿真环境，可以加速具身AI算法的开发和验证，降低开发成本，并提高算法在真实世界中的鲁棒性。此外，该数据集还可以用于评估和改进3D重建和新视角合成算法，推动相关领域的发展。

📄 摘要（原文）

Reproducible closed-loop evaluation remains a major bottleneck in Embodied AI such as visual navigation. A promising path forward is high-fidelity simulation that combines photorealistic sensor rendering with geometrically grounded interaction in complex, open-world urban environments. Although recent video-3DGS methods ease open-world scene capturing, they are still unsuitable for benchmarking due to large visual and geometric sim-to-real gaps. To address these challenges, we introduce Wanderland, a real-to-sim framework that features multi-sensor capture, reliable reconstruction, accurate geometry, and robust view synthesis. Using this pipeline, we curate a diverse dataset of indoor-outdoor urban scenes and systematically demonstrate how image-only pipelines scale poorly, how geometry quality impacts novel view synthesis, and how all of these adversely affect navigation policy learning and evaluation reliability. Beyond serving as a trusted testbed for embodied navigation, Wanderland's rich raw sensor data further allows benchmarking of 3D reconstruction and novel view synthesis models. Our work establishes a new foundation for reproducible research in open-world embodied AI. Project website is at https://ai4ce.github.io/wanderland/.

Wanderland: Geometrically Grounded Simulation for Open-World Embodied AI

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册