Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets
作者: Guillermo Roque, Erika Maquiling, Jose Giovanni Tapia Lopez, Ross Greer
分类: cs.RO, cs.CV, cs.LG
发布日期: 2025-05-06
💡 一句话要点
提出基于GPS和NLP的自动数据标注方法,用于生成自动驾驶视觉-语言导航数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 视觉-语言导航 数据增强 自然语言处理 全球定位系统 指令-动作对 人机交互
📋 核心要点
- 人工标注指令-动作数据对成本高昂且效率低下,阻碍了自动驾驶等机器人系统的发展。
- 利用GPS和NLP技术,自动生成大规模指令-动作数据,无需人工干预,降低成本并提高效率。
- 构建了ADVLAT-Engine原型系统,验证了该方法的可行性,并对收集的GPS语音指令进行了分类。
📝 摘要(中文)
本文探索了利用移动应用程序的全球定位系统(GPS)参考和自然语言处理(NLP)技术,自动生成大量指令-动作(IA)数据对的可能性,无需人工生成或追溯标记数据。这种IA数据对对于训练机器人系统,特别是自动驾驶汽车(AVs)非常有价值,但人工标注成本高且效率低。在我们的初步数据收集中,通过驾驶到不同的目的地并收集GPS应用程序的语音指令,我们展示了一种收集和分类各种指令的方法,并辅以视频数据以形成完整的视觉-语言-动作三元组。我们详细介绍了我们完全自动化的数据收集原型系统ADVLAT-Engine。我们将收集到的GPS语音指令归类为八种不同的类别,突出了可从免费移动应用程序中获取的各种命令和参考。通过研究和探索使用GPS参考自动生成IA数据对,提高高质量IA数据集的创建速度和数量,同时最大限度地降低成本的潜力,可以为强大的视觉-语言-动作(VLA)模型铺平道路,以服务于视觉-语言导航(VLN)和人机交互自主系统中的任务。
🔬 方法详解
问题定义:现有自动驾驶视觉-语言导航数据集的构建依赖于人工标注指令-动作(IA)数据对,这导致数据获取成本高昂且效率低下,限制了模型训练的规模和泛化能力。因此,如何低成本、高效率地生成大规模IA数据对是亟待解决的问题。
核心思路:本文的核心思路是利用现有的移动应用程序(如导航App)提供的GPS定位和语音指令信息,结合自然语言处理技术,自动提取和生成IA数据对。通过将GPS语音指令转化为文本指令,并结合车辆的实际动作(例如转向、行驶),构建视觉-语言-动作三元组。
技术框架:本文提出了一个名为ADVLAT-Engine的完全自动化数据收集原型系统。该系统主要包含以下几个阶段:1) 数据采集:通过移动应用程序获取GPS定位和语音指令;2) 指令解析:利用NLP技术将语音指令转化为文本指令;3) 动作记录:记录车辆的实际动作,例如转向、行驶速度等;4) 数据关联:将文本指令与车辆动作进行关联,形成IA数据对;5) 数据分类:将收集到的GPS语音指令进行分类,以便更好地组织和利用数据。
关键创新:该方法的核心创新在于利用现有的GPS和NLP技术,实现了IA数据对的自动生成,无需人工标注。这大大降低了数据获取的成本,并提高了数据生成的效率。此外,该方法还可以利用各种不同的移动应用程序,从而获取更加多样化的指令和场景数据。
关键设计:ADVLAT-Engine系统采用模块化设计,方便扩展和维护。指令解析模块使用了现有的语音识别和自然语言处理技术,例如语音转文本(STT)和命名实体识别(NER)。数据关联模块根据时间戳将文本指令与车辆动作进行匹配。数据分类模块将收集到的GPS语音指令分为八种不同的类别,包括转向、直行、到达目的地等。具体的参数设置和损失函数等技术细节未知。
🖼️ 关键图片
📊 实验亮点
该研究成功构建了一个完全自动化的数据收集原型系统ADVLAT-Engine,并利用该系统收集了大量的GPS语音指令数据。研究人员将收集到的GPS语音指令归类为八种不同的类别,证明了该方法可以获取多样化的指令数据。虽然论文中没有给出具体的性能数据,但该研究为自动生成VLN数据集提供了一种新的思路和方法。
🎯 应用场景
该研究成果可应用于自动驾驶汽车的视觉-语言导航(VLN)任务,提高自动驾驶系统对人类指令的理解和执行能力。此外,该方法还可以应用于其他机器人领域,例如家庭服务机器人、物流机器人等,提升机器人的人机交互能力和自主性。未来,该技术有望促进人机协作的更加智能化和高效化。
📄 摘要(原文)
Instruction-Action (IA) data pairs are valuable for training robotic systems, especially autonomous vehicles (AVs), but having humans manually annotate this data is costly and time-inefficient. This paper explores the potential of using mobile application Global Positioning System (GPS) references and Natural Language Processing (NLP) to automatically generate large volumes of IA commands and responses without having a human generate or retroactively tag the data. In our pilot data collection, by driving to various destinations and collecting voice instructions from GPS applications, we demonstrate a means to collect and categorize the diverse sets of instructions, further accompanied by video data to form complete vision-language-action triads. We provide details on our completely automated data collection prototype system, ADVLAT-Engine. We characterize collected GPS voice instructions into eight different classifications, highlighting the breadth of commands and referentialities available for curation from freely available mobile applications. Through research and exploration into the automation of IA data pairs using GPS references, the potential to increase the speed and volume at which high-quality IA datasets are created, while minimizing cost, can pave the way for robust vision-language-action (VLA) models to serve tasks in vision-language navigation (VLN) and human-interactive autonomous systems.