BehAV: Behavioral Rule Guided Autonomy Using VLMs for Robot Navigation in Outdoor Scenes

📄 arXiv: 2409.16484v2 📥 PDF

作者: Kasun Weerakoon, Mohamed Elnoor, Gershom Seneviratne, Vignesh Rajagopal, Senthil Hariharan Arul, Jing Liang, Mohamed Khalid M Jaffar, Dinesh Manocha

分类: cs.RO

发布日期: 2024-09-24 (更新: 2024-10-02)


💡 一句话要点

BehAV:利用VLM和行为规则引导户外场景机器人自主导航

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人导航 视觉语言模型 行为规则 自主导航 模型预测控制

📋 核心要点

  1. 现有户外机器人导航方法难以有效理解和执行人类的行为指令,尤其是在复杂环境中。
  2. BehAV利用VLM理解人类指令,生成行为代价地图,并结合MPC规划器实现行为规则引导的导航。
  3. 实验表明,BehAV在真实户外场景中显著提升了机器人导航的对齐度和成功率,优于现有方法。

📝 摘要(中文)

本文提出了一种名为BehAV的新方法,用于在户外场景中,基于人类指令并利用视觉语言模型(VLM)实现机器人自主导航。该方法使用大型语言模型(LLM)解释人类指令,并将指令分类为导航和行为指导。导航指导包括方向命令(例如,“向前移动直到”)和相关的地标(例如,“带有蓝色窗户的建筑物”),而行为指导包括管理动作(例如,“保持在”)及其相应的对象(例如,“人行道”)。我们利用VLM的零样本场景理解能力,从RGB图像中估计地标位置,用于机器人导航。此外,我们引入了一种新颖的场景表示,该表示利用VLM将行为规则融入到行为代价地图中。该代价地图编码了场景中行为对象的存在,并根据其管理动作分配代价。行为代价地图与基于激光雷达的占用地图集成用于导航。为了在户外场景中导航并遵守指示的行为,我们提出了一种基于无约束模型预测控制(MPC)的规划器,该规划器优先考虑到达地标和遵循行为指导。我们在四足机器人上评估了BehAV在各种真实场景中的性能,结果表明,与人类遥控操作相比,按照弗雷歇距离衡量,对齐度提高了22.49%,导航成功率比最先进的方法高40%。

🔬 方法详解

问题定义:现有机器人导航方法通常依赖于预定义的地图或简单的目标点,难以理解和执行复杂的人类行为指令,例如“沿着人行道走到蓝色建筑”。这些方法缺乏对场景的语义理解能力,无法将人类指令转化为可执行的机器人动作,导致导航效率低下甚至失败。

核心思路:BehAV的核心思路是将人类指令分解为导航指令和行为指令,利用VLM的强大场景理解能力,将这些指令转化为机器人可理解的场景表示。通过构建行为代价地图,将行为规则融入到导航规划中,从而使机器人能够在遵循人类指令的同时,安全有效地完成导航任务。

技术框架:BehAV的整体框架包括以下几个主要模块:1) 指令解析模块:使用LLM将人类指令解析为导航指令和行为指令。2) 地标定位模块:利用VLM从RGB图像中定位导航指令中的地标。3) 行为代价地图构建模块:利用VLM识别场景中的行为对象,并根据行为指令生成行为代价地图。4) 导航规划模块:将行为代价地图与激光雷达占用地图融合,使用MPC规划器生成导航轨迹。

关键创新:BehAV的关键创新在于:1) 利用VLM进行零样本场景理解,无需大量标注数据即可识别场景中的地标和行为对象。2) 提出了一种新颖的行为代价地图,将行为规则融入到导航规划中,实现了行为规则引导的自主导航。3) 采用无约束MPC规划器,能够同时优化导航目标和行为规则的满足程度。

关键设计:行为代价地图的设计是关键。VLM输出的每个像素级别的语义分割结果,会根据对应的行为规则赋予不同的代价。例如,如果指令是“stay on pavements”,那么人行道区域的代价较低,而非人行道区域的代价较高。MPC规划器通过最小化轨迹上的代价总和,来引导机器人遵循行为规则。此外,MPC规划器还考虑了机器人的动力学约束和环境的占用情况,以确保导航的安全性和可行性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BehAV在真实户外场景中取得了显著的性能提升。与人类遥控操作相比,BehAV的导航轨迹对齐度(通过弗雷歇距离衡量)提高了22.49%。此外,BehAV的导航成功率比最先进的方法高40%,证明了其在复杂环境中遵循人类指令进行自主导航的有效性。

🎯 应用场景

BehAV在许多领域具有广泛的应用前景,例如:1) 物流配送:机器人可以根据人类指令,在复杂的城市环境中安全高效地完成配送任务。2) 巡逻安防:机器人可以根据预设的行为规则,在特定区域进行巡逻,并及时发现异常情况。3) 辅助导航:帮助视力障碍人士在复杂环境中安全导航。未来,BehAV有望成为实现真正自主机器人的关键技术。

📄 摘要(原文)

We present BehAV, a novel approach for autonomous robot navigation in outdoor scenes guided by human instructions and leveraging Vision Language Models (VLMs). Our method interprets human commands using a Large Language Model (LLM) and categorizes the instructions into navigation and behavioral guidelines. Navigation guidelines consist of directional commands (e.g., "move forward until") and associated landmarks (e.g., "the building with blue windows"), while behavioral guidelines encompass regulatory actions (e.g., "stay on") and their corresponding objects (e.g., "pavements"). We use VLMs for their zero-shot scene understanding capabilities to estimate landmark locations from RGB images for robot navigation. Further, we introduce a novel scene representation that utilizes VLMs to ground behavioral rules into a behavioral cost map. This cost map encodes the presence of behavioral objects within the scene and assigns costs based on their regulatory actions. The behavioral cost map is integrated with a LiDAR-based occupancy map for navigation. To navigate outdoor scenes while adhering to the instructed behaviors, we present an unconstrained Model Predictive Control (MPC)-based planner that prioritizes both reaching landmarks and following behavioral guidelines. We evaluate the performance of BehAV on a quadruped robot across diverse real-world scenarios, demonstrating a 22.49% improvement in alignment with human-teleoperated actions, as measured by Frechet distance, and achieving a 40% higher navigation success rate compared to state-of-the-art methods.