Wanderland: Geometrically Grounded Simulation for Open-World Embodied AI

📄 arXiv: 2511.20620v1 📥 PDF

作者: Xinhao Liu, Jiaqi Li, Youming Deng, Ruxin Chen, Yingjia Zhang, Yifei Ma, Li Guo, Yiming Li, Jing Zhang, Chen Feng

分类: cs.CV, cs.RO

发布日期: 2025-11-25

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Wanderland:面向开放世界具身AI的几何校准仿真框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)

关键词: 具身AI 仿真环境 开放世界 几何重建 多传感器融合 导航策略 新视角合成 Real-to-Sim

📋 核心要点

  1. 现有具身AI仿真环境在开放世界场景中存在几何和视觉上的sim-to-real差距,影响了策略学习和评估的可靠性。
  2. Wanderland提出了一种real-to-sim框架,通过多传感器捕获、可靠重建和精确几何建模,缩小仿真与现实的差距。
  3. 实验表明,Wanderland数据集能够有效评估导航策略,并为3D重建和新视角合成模型提供基准测试。

📝 摘要(中文)

具身AI(如视觉导航)中,可复现的闭环评估仍然是一个主要瓶颈。一个有前景的解决方案是高保真仿真,它将逼真的传感器渲染与复杂、开放世界的城市环境中几何校准的交互相结合。尽管最近的video-3DGS方法简化了开放世界场景的捕获,但由于视觉和几何的sim-to-real差距较大,它们仍然不适合基准测试。为了应对这些挑战,我们引入了Wanderland,这是一个real-to-sim框架,具有多传感器捕获、可靠的重建、精确的几何形状和鲁棒的视角合成。使用此流程,我们整理了一个多样化的室内外城市场景数据集,并系统地演示了仅图像的流程如何扩展性差,几何质量如何影响新视角合成,以及所有这些如何不利地影响导航策略学习和评估可靠性。除了作为具身导航的可靠测试平台外,Wanderland丰富的原始传感器数据还允许对3D重建和新视角合成模型进行基准测试。我们的工作为开放世界具身AI中的可复现研究奠定了新的基础。

🔬 方法详解

问题定义:现有具身AI的仿真环境,尤其是在开放世界场景下,存在严重的sim-to-real差距,包括视觉渲染和几何结构上的差异。这导致在仿真环境中训练的导航策略难以直接迁移到真实世界,并且在仿真环境中的评估结果也可能不准确。现有的video-3DGS方法虽然简化了场景捕获,但仍然无法有效解决这些差距。

核心思路:Wanderland的核心思路是通过构建一个高质量的real-to-sim框架,尽可能地还原真实世界的几何结构和视觉信息。通过多传感器数据融合和精确的几何重建,减少仿真环境与真实环境之间的差异,从而提高导航策略学习和评估的可靠性。

技术框架:Wanderland框架主要包含以下几个阶段:1) 多传感器数据捕获:使用多种传感器(如RGB相机、深度相机、激光雷达等)同时采集场景数据。2) 可靠的3D重建:利用采集到的多模态数据,进行精确的3D场景重建,生成高质量的几何模型。3) 鲁棒的视角合成:基于重建的3D模型,实现高质量的新视角合成,生成逼真的图像。4) 数据集构建:将重建的场景数据整理成数据集,用于导航策略学习和评估。

关键创新:Wanderland的关键创新在于其real-to-sim的框架设计,以及对几何重建质量的重视。与以往仅依赖图像的重建方法不同,Wanderland利用多传感器数据融合,显著提高了重建的几何精度,从而减少了sim-to-real差距。此外,该框架还提供了丰富的原始传感器数据,方便研究者进行3D重建和新视角合成算法的基准测试。

关键设计:在多传感器数据融合方面,Wanderland可能采用了基于优化的方法,将不同传感器的数据对齐并融合。在几何重建方面,可能使用了SLAM或SfM等技术,并结合深度信息进行优化。在视角合成方面,可能使用了基于神经渲染的方法,以生成逼真的图像。具体的参数设置、损失函数和网络结构等技术细节,论文中可能有所描述,但此处无法得知。

📊 实验亮点

Wanderland数据集的实验结果表明,仅使用图像的重建方法在开放世界场景中表现不佳,几何质量对新视角合成有显著影响,并且这些因素都会影响导航策略学习和评估的可靠性。该数据集为具身导航提供了一个可靠的测试平台,并允许对3D重建和新视角合成模型进行基准测试,为未来的研究奠定了基础。

🎯 应用场景

Wanderland的研究成果可广泛应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。通过提供一个高质量的仿真环境,可以加速具身AI算法的开发和验证,降低开发成本,并提高算法在真实世界中的鲁棒性。此外,该数据集还可以用于评估和改进3D重建和新视角合成算法,推动相关领域的发展。

📄 摘要(原文)

Reproducible closed-loop evaluation remains a major bottleneck in Embodied AI such as visual navigation. A promising path forward is high-fidelity simulation that combines photorealistic sensor rendering with geometrically grounded interaction in complex, open-world urban environments. Although recent video-3DGS methods ease open-world scene capturing, they are still unsuitable for benchmarking due to large visual and geometric sim-to-real gaps. To address these challenges, we introduce Wanderland, a real-to-sim framework that features multi-sensor capture, reliable reconstruction, accurate geometry, and robust view synthesis. Using this pipeline, we curate a diverse dataset of indoor-outdoor urban scenes and systematically demonstrate how image-only pipelines scale poorly, how geometry quality impacts novel view synthesis, and how all of these adversely affect navigation policy learning and evaluation reliability. Beyond serving as a trusted testbed for embodied navigation, Wanderland's rich raw sensor data further allows benchmarking of 3D reconstruction and novel view synthesis models. Our work establishes a new foundation for reproducible research in open-world embodied AI. Project website is at https://ai4ce.github.io/wanderland/.