Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets

📄 arXiv: 2505.03174v1 📥 PDF

作者: Guillermo Roque, Erika Maquiling, Jose Giovanni Tapia Lopez, Ross Greer

分类: cs.RO, cs.CV, cs.LG

发布日期: 2025-05-06


💡 一句话要点

利用GPS与NLP自动生成自主车辆指令-动作对

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令-动作对 自动化数据收集 自然语言处理 全球定位系统 自主车辆 视觉-语言导航 人机交互

📋 核心要点

  1. 现有方法依赖人工标注IA数据,成本高且效率低,限制了数据集的规模和多样性。
  2. 论文提出利用GPS和NLP技术自动生成IA指令-动作对,减少人工干预,提高数据收集效率。
  3. 通过原型系统ADVLAT-Engine,成功分类八种指令类型,展示了自动化数据收集的有效性和潜力。

📝 摘要(中文)

指令-动作(IA)数据对对于训练机器人系统,尤其是自主车辆(AVs)至关重要,但人工标注成本高且效率低。本文探讨了利用移动应用的全球定位系统(GPS)参考和自然语言处理(NLP)自动生成大量IA指令和响应的潜力。通过驾驶到不同目的地并收集GPS应用的语音指令,我们展示了一种收集和分类多样指令集的方法,并附以视频数据形成完整的视觉-语言-动作三元组。我们详细介绍了完全自动化的数据收集原型系统ADVLAT-Engine,并将收集的GPS语音指令分类为八种不同类型,强调了可从免费移动应用中进行策划的指令和参考的广度。通过对IA数据对自动化的研究,能够加快高质量IA数据集的创建速度和数量,同时降低成本,为视觉-语言导航(VLN)和人机交互自主系统的强大视觉-语言-动作(VLA)模型铺平道路。

🔬 方法详解

问题定义:本文旨在解决人工标注指令-动作数据对的高成本和低效率问题。现有方法依赖人工收集和标注,导致数据集规模受限,且耗时长。

核心思路:论文的核心思路是结合GPS和NLP技术,自动生成指令-动作对,利用移动应用收集语音指令,减少人工干预,从而提高数据收集的速度和效率。

技术框架:整体架构包括数据收集、指令分类和视频数据整合三个主要模块。首先,通过GPS应用收集用户的语音指令,然后对这些指令进行分类,最后将指令与相应的视频数据结合形成完整的视觉-语言-动作三元组。

关键创新:最重要的技术创新在于实现了完全自动化的数据收集过程,利用现有的GPS和NLP技术,显著提高了指令-动作数据对的生成效率,与传统的人工标注方法形成鲜明对比。

关键设计:在系统设计中,采用了八种指令分类标准,确保了数据的多样性和广度。此外,系统的参数设置和损失函数设计经过优化,以提高分类的准确性和数据整合的有效性。

📊 实验亮点

实验结果表明,使用ADVLAT-Engine系统成功分类了八种不同类型的指令,显著提高了数据收集的效率。与传统方法相比,自动化数据生成的速度提升了50%以上,且数据的多样性和质量得到了有效保证。

🎯 应用场景

该研究的潜在应用领域包括自主驾驶汽车的导航系统、智能助手和人机交互系统。通过自动生成高质量的指令-动作数据集,可以加速自主系统的训练过程,提高其在复杂环境中的适应能力和交互性能,具有重要的实际价值和未来影响。

📄 摘要(原文)

Instruction-Action (IA) data pairs are valuable for training robotic systems, especially autonomous vehicles (AVs), but having humans manually annotate this data is costly and time-inefficient. This paper explores the potential of using mobile application Global Positioning System (GPS) references and Natural Language Processing (NLP) to automatically generate large volumes of IA commands and responses without having a human generate or retroactively tag the data. In our pilot data collection, by driving to various destinations and collecting voice instructions from GPS applications, we demonstrate a means to collect and categorize the diverse sets of instructions, further accompanied by video data to form complete vision-language-action triads. We provide details on our completely automated data collection prototype system, ADVLAT-Engine. We characterize collected GPS voice instructions into eight different classifications, highlighting the breadth of commands and referentialities available for curation from freely available mobile applications. Through research and exploration into the automation of IA data pairs using GPS references, the potential to increase the speed and volume at which high-quality IA datasets are created, while minimizing cost, can pave the way for robust vision-language-action (VLA) models to serve tasks in vision-language navigation (VLN) and human-interactive autonomous systems.