MiniVLA-Nav v1: A Multi-Scene Simulation Dataset for Language-Conditioned Robot Navigation

📄 arXiv: 2605.00397v1 📥 PDF

作者: Ali Al-Bustami, Jaerock Kwon

分类: cs.RO

发布日期: 2026-05-01

备注: 9 pages, 12 figures, 7 tables. Dataset paper

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

MiniVLA-Nav v1:用于语言条件机器人导航的多场景仿真数据集

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言条件导航 机器人仿真 数据集 Isaac Sim 物体接近

📋 核心要点

  1. 现有语言条件导航方法在真实机器人上的部署面临数据稀缺和泛化性挑战,尤其是在复杂环境中。
  2. MiniVLA-Nav v1数据集通过在多个逼真仿真环境中提供多样化的场景和任务,旨在弥合仿真与现实之间的差距。
  3. 该数据集包含丰富的感知信息和专家动作标签,并提供多种评估分割,便于研究人员进行算法开发和性能评估。

📝 摘要(中文)

本文提出了MiniVLA-Nav v1,一个用于语言条件物体接近(LCOA)导航的仿真数据集。该数据集旨在训练NVIDIA Nova Carter差速驱动机器人,使其能够根据简短的自然语言指令导航到指定物体,并在四个逼真的Isaac Sim环境中(办公室、医院、完整仓库和带多层货架的仓库)的1米范围内停止。每个包含1,174个episode的数据集都包含同步的640x640 RGB图像、米制深度图(float32)和实例分割掩码,以及由基于视觉的比例控制器以60 Hz记录的连续(v,omega)和7x7 token化的专家动作标签。通过三个生成距离层级(近:1.5-3.5米,中:3.5-7.0米,远:全局精选点;生成距离和轨迹长度之间的Pearson相关系数r=0.94),12个物体类别,18个训练模板和12个释义-OOD模板来确保轨迹多样性。五个评估分割支持分布内准确性、模板-释义鲁棒性和OOD物体类别基准测试。该数据集已在https://huggingface.co/datasets/alibustami/miniVLA-Nav上公开。

🔬 方法详解

问题定义:现有语言条件机器人导航方法通常依赖于有限的真实世界数据,导致模型泛化能力不足,难以适应复杂多变的环境。此外,数据标注成本高昂,难以支持大规模训练。因此,需要一个大规模、多样化的仿真数据集来促进相关研究。

核心思路:MiniVLA-Nav v1的核心思路是构建一个逼真的多场景仿真环境,并生成包含丰富感知信息和专家动作标签的数据集。通过控制生成距离、物体类别和指令模板等因素,确保数据集的多样性,从而提高模型在真实环境中的泛化能力。

技术框架:MiniVLA-Nav v1数据集的生成流程主要包括以下几个阶段:1) 在Isaac Sim中构建四个逼真的仿真环境(办公室、医院、完整仓库和带多层货架的仓库);2) 定义12个物体类别和18个训练指令模板;3) 通过随机采样生成起始位置和目标物体,并使用基于视觉的比例控制器生成专家动作轨迹;4) 记录同步的RGB图像、深度图、实例分割掩码和动作标签;5) 将数据集划分为五个评估分割,支持分布内准确性、模板-释义鲁棒性和OOD物体类别基准测试。

关键创新:MiniVLA-Nav v1的关键创新在于其多场景、多样化的仿真环境和丰富的数据标注。与现有数据集相比,MiniVLA-Nav v1提供了更逼真的场景、更丰富的物体类别和更全面的感知信息,从而更有效地支持语言条件机器人导航算法的开发和评估。此外,该数据集还提供了模板-释义鲁棒性和OOD物体类别基准测试,有助于评估模型的泛化能力。

关键设计:MiniVLA-Nav v1的关键设计包括:1) 使用Isaac Sim构建逼真的仿真环境,提高仿真与现实的相似度;2) 通过三个生成距离层级(近、中、远)控制轨迹长度,增加数据集的多样性;3) 使用基于视觉的比例控制器生成专家动作标签,提供高质量的训练数据;4) 提供五个评估分割,支持多种评估指标,方便研究人员进行算法比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MiniVLA-Nav v1数据集包含1,174个episode,涵盖四个逼真的Isaac Sim环境。通过控制生成距离,物体类别和指令模板,确保了数据集的多样性(Pearson r=0.94 between spawn distance and trajectory length)。该数据集提供了五个评估分割,支持分布内准确性、模板-释义鲁棒性和OOD物体类别基准测试,为研究人员提供了全面的评估工具。

🎯 应用场景

MiniVLA-Nav v1数据集可广泛应用于语言条件机器人导航领域,例如智能仓储、医疗服务和家庭助手等。通过在该数据集上训练模型,可以提高机器人在复杂环境中根据自然语言指令进行导航的能力,从而实现更智能、更高效的机器人应用。该数据集还有助于推动机器人感知、规划和控制等相关技术的发展。

📄 摘要(原文)

We present MiniVLA-Nav v1, a simulation dataset for Language-Conditioned Object Approach (LCOA) navigation: given a short natural-language instruction, an NVIDIA Nova Carter differential-drive robot must navigate to the named object and stop within 1 m across four photorealistic Isaac Sim environments (Office, Hospital, Full Warehouse, and Warehouse with Multiple Shelves). Each of the 1,174 episodes pairs an instruction with synchronized 640x640 RGB images, metric depth maps (float32, metres), and instance segmentation masks, together with continuous (v,omega) and 7x7 tokenized expert action labels recorded at 60 Hz from a vision-based proportional controller. Trajectory diversity is ensured through three spawn-distance tiers (near: 1.5-3.5 m, mid: 3.5-7.0 m, far: global curated points; Pearson r=0.94 between spawn distance and trajectory length), 12 object categories, 18 training templates, and 12 paraphrase-OOD templates. Five evaluation splits support in-distribution accuracy, template-paraphrase robustness, and OOD object-category benchmarking. The dataset is publicly available at https://huggingface.co/datasets/alibustami/miniVLA-Nav