RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation

📄 arXiv: 2412.08591v2 📥 PDF

作者: Mingfei Han, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev

分类: cs.CV, cs.AI, cs.RO

发布日期: 2024-12-11 (更新: 2025-03-19)

备注: CVPR2025


💡 一句话要点

RoomTour3D:用于具身导航的几何感知视频指令调优

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 具身智能 3D重建 数据集 机器人导航

📋 核心要点

  1. 现有的视觉-语言导航(VLN)数据集规模有限,且依赖手动标注,难以覆盖真实世界的多样性。
  2. RoomTour3D利用网络视频生成大规模、开放式的导航轨迹和指令,并进行3D重建以增强几何信息。
  3. 实验证明,RoomTour3D能显著提升多个VLN任务的性能,并支持训练零样本VLN智能体。

📝 摘要(中文)

视觉-语言导航(VLN)受限于训练数据的多样性和规模,这主要受到现有模拟器手动管理的限制。为了解决这个问题,我们引入了RoomTour3D,这是一个从网络上的房间导览视频中提取的视频指令数据集,它捕捉了真实的室内空间和人类行走演示。与现有的VLN数据集不同,RoomTour3D利用在线视频的规模和多样性来生成开放式的人类行走轨迹和开放世界的导航指令。为了弥补在线视频中导航数据的不足,我们进行了3D重建,并获得了行走路径的3D轨迹,并增加了房间类型、物体位置和周围场景的3D形状等额外信息。我们的数据集包括约10万条富含描述的开放式轨迹,包含约20万条指令,以及来自1847个房间导览环境的1.7万条富含动作的轨迹。实验表明,RoomTour3D能够显著改进包括CVDN、SOON、R2R和REVERIE在内的多个VLN任务。此外,RoomTour3D促进了可训练的零样本VLN代理的开发,展示了在开放世界导航中取得进展的潜力和挑战。

🔬 方法详解

问题定义:现有的视觉-语言导航(VLN)数据集主要依赖于人工构建的模拟环境,数据规模和多样性受限,难以泛化到真实世界的复杂场景。此外,这些数据集通常缺乏丰富的几何信息,阻碍了智能体对环境的理解和推理。

核心思路:论文的核心思路是利用互联网上大量的房间导览视频,自动生成大规模、多样化的VLN训练数据。通过3D重建技术,从视频中提取场景的几何信息,并将其与视频中的自然语言指令相结合,从而构建一个更贴近真实世界的VLN数据集。

技术框架:RoomTour3D的构建流程主要包括以下几个阶段:1) 数据收集:从YouTube等视频网站收集房间导览视频。2) 轨迹生成:利用视频中的视觉信息和SLAM技术,重建场景的3D结构,并提取人类行走的3D轨迹。3) 指令生成:利用语音识别和自然语言处理技术,从视频的解说词中提取导航指令,并进行清洗和过滤。4) 数据增强:利用3D场景的几何信息,对轨迹和指令进行增强,例如添加房间类型、物体位置等信息。

关键创新:RoomTour3D的关键创新在于:1) 利用互联网视频作为数据来源,突破了传统VLN数据集的规模限制。2) 引入3D重建技术,为VLN任务提供了丰富的几何信息。3) 构建了一个包含开放式轨迹和指令的数据集,更贴近真实世界的导航场景。

关键设计:论文中没有明确提及关键的参数设置、损失函数、网络结构等技术细节,这些细节可能取决于具体的VLN模型和训练策略。但是,3D重建的精度、语音识别的准确率以及自然语言处理的效果都会直接影响RoomTour3D数据集的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用RoomTour3D数据集训练的VLN智能体在CVDN、SOON、R2R和REVERIE等多个任务上取得了显著的性能提升。此外,该数据集还支持训练零样本VLN智能体,这意味着智能体可以在没有特定环境训练的情况下,直接在新的环境中进行导航。具体的性能提升数据未知,需要在论文中查找。

🎯 应用场景

RoomTour3D数据集可以广泛应用于机器人导航、虚拟现实、增强现实等领域。例如,可以利用该数据集训练机器人,使其能够在真实室内环境中根据自然语言指令进行导航。此外,该数据集还可以用于开发更逼真的虚拟现实和增强现实应用,例如虚拟导览、远程协助等。

📄 摘要(原文)

Vision-and-Language Navigation (VLN) suffers from the limited diversity and scale of training data, primarily constrained by the manual curation of existing simulators. To address this, we introduce RoomTour3D, a video-instruction dataset derived from web-based room tour videos that capture real-world indoor spaces and human walking demonstrations. Unlike existing VLN datasets, RoomTour3D leverages the scale and diversity of online videos to generate open-ended human walking trajectories and open-world navigable instructions. To compensate for the lack of navigation data in online videos, we perform 3D reconstruction and obtain 3D trajectories of walking paths augmented with additional information on the room types, object locations and 3D shape of surrounding scenes. Our dataset includes $\sim$100K open-ended description-enriched trajectories with $\sim$200K instructions, and 17K action-enriched trajectories from 1847 room tour environments. We demonstrate experimentally that RoomTour3D enables significant improvements across multiple VLN tasks including CVDN, SOON, R2R, and REVERIE. Moreover, RoomTour3D facilitates the development of trainable zero-shot VLN agents, showcasing the potential and challenges of advancing towards open-world navigation.