Words to Wheels: Vision-Based Autonomous Driving Understanding Human Language Instructions Using Foundation Models

作者: Chanhoe Ryu, Hyunki Seong, Daegyu Lee, Seongwoo Moon, Sungjae Min, D. Hyunchul Shim

分类: cs.RO

发布日期: 2024-10-14

备注: 7 pages, 7 figures

💡 一句话要点

提出基于视觉和语言模型的无人地面车辆自主导航方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无人地面车辆 自主导航 语言指令 基础模型 视觉感知

📋 核心要点

现有基于学习的导航方法泛化性差，需要大量训练数据，难以适应新环境。
利用大型语言模型将人类指令转化为认知路线描述，结合视觉模型进行地标识别和路径规划。
实验证明该方法在未知环境中能有效引导无人车根据语言指令到达目的地。

📝 摘要（中文）

本文提出了一种创新性的方法，利用基础模型使配备RGB-D相机的无人地面车辆(UGV)能够根据人类语言指令导航到指定目的地。与基于学习的方法不同，该方法不需要预先训练，而是利用现有的基础模型，从而易于推广到新的环境。接收到人类语言指令后，使用大型语言模型(LLM)将其转换为“认知路线描述”，即用人类语言表达的详细导航路线。然后，车辆将此描述分解为地标和导航操作。车辆还通过在开放数据集上训练的地形分割模型GANav确定高程成本并识别不同区域的可导航性级别。估计语义高程成本（同时考虑高程和可导航性级别），并将其提供给负责局部路径规划的模型预测路径积分(MPPI)规划器。同时，车辆使用包括YOLO-World和EfficientViT-SAM在内的基础模型搜索目标地标。最终，车辆执行导航命令以到达指定的目的地，即最终地标。实验表明，该应用成功地引导UGV在新的环境中（例如不熟悉的地形或城市环境）按照人类语言指令到达目的地。

🔬 方法详解

问题定义：现有无人地面车辆（UGV）的自主导航方法通常依赖于大量的训练数据，并且在面对新的、未知的环境时泛化能力较差。如何使UGV能够理解人类的自然语言指令，并在没有预先训练的情况下，自主地在复杂环境中导航到指定目的地，是一个重要的挑战。

核心思路：本文的核心思路是利用预训练的大型语言模型（LLM）和视觉基础模型，将人类的自然语言指令转化为可执行的导航策略。通过LLM理解指令并生成“认知路线描述”，再结合视觉模型识别环境中的地标，从而实现无需额外训练的自主导航。

技术框架：该方法的整体框架包括以下几个主要模块：1) 语言指令解析模块：使用LLM将人类语言指令转换为详细的“认知路线描述”。2) 地标与操作分解模块：将认知路线描述分解为一系列的地标和导航操作。3) 环境感知模块：利用RGB-D相机获取环境信息，并使用GANav模型进行地形分割，估计不同区域的高程成本和可导航性。4) 地标识别模块：使用YOLO-World和EfficientViT-SAM等视觉模型搜索目标地标。5) 路径规划模块：使用模型预测路径积分（MPPI）规划器，根据语义高程成本进行局部路径规划。6) 导航执行模块：执行导航命令，引导UGV到达目的地。

关键创新：该方法最重要的创新点在于利用预训练的基础模型，实现了无需额外训练的自主导航。与传统的基于学习的方法相比，该方法具有更好的泛化能力，能够适应新的、未知的环境。此外，将LLM生成的“认知路线描述”作为中间表示，有效地连接了语言指令和导航策略。

关键设计：GANav模型用于地形分割，输出不同区域的高程成本和可导航性，这些信息被用于计算语义高程成本，并作为MPPI规划器的输入。YOLO-World和EfficientViT-SAM等视觉模型用于地标识别，为导航提供目标信息。MPPI规划器根据语义高程成本进行局部路径规划，避免高风险区域，确保导航的安全性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法能够成功引导UGV在新的环境中，根据人类语言指令到达目的地。例如，在不熟悉的地形或城市环境中，UGV能够准确识别地标，并规划出合理的路径，最终完成导航任务。虽然论文中没有给出具体的性能指标，但实验结果验证了该方法的可行性和有效性。

🎯 应用场景

该研究成果可广泛应用于物流配送、安防巡逻、灾害救援等领域。例如，在仓库中，UGV可以根据工作人员的语音指令，自主地将货物运送到指定地点。在灾害现场，UGV可以根据救援人员的指令，自主地搜索幸存者或运送物资。该技术有望提高工作效率，降低人力成本，并在危险环境中保障人员安全。

📄 摘要（原文）

This paper introduces an innovative application of foundation models, enabling Unmanned Ground Vehicles (UGVs) equipped with an RGB-D camera to navigate to designated destinations based on human language instructions. Unlike learning-based methods, this approach does not require prior training but instead leverages existing foundation models, thus facilitating generalization to novel environments. Upon receiving human language instructions, these are transformed into a 'cognitive route description' using a large language model (LLM)-a detailed navigation route expressed in human language. The vehicle then decomposes this description into landmarks and navigation maneuvers. The vehicle also determines elevation costs and identifies navigability levels of different regions through a terrain segmentation model, GANav, trained on open datasets. Semantic elevation costs, which take both elevation and navigability levels into account, are estimated and provided to the Model Predictive Path Integral (MPPI) planner, responsible for local path planning. Concurrently, the vehicle searches for target landmarks using foundation models, including YOLO-World and EfficientViT-SAM. Ultimately, the vehicle executes the navigation commands to reach the designated destination, the final landmark. Our experiments demonstrate that this application successfully guides UGVs to their destinations following human language instructions in novel environments, such as unfamiliar terrain or urban settings.

Words to Wheels: Vision-Based Autonomous Driving Understanding Human Language Instructions Using Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理