CATNAV: Cached Vision-Language Traversability for Efficient Zero-Shot Robot Navigation

📄 arXiv: 2603.22800v1 📥 PDF

作者: Aditya Potnis, Francisco Affonso, Shreya Gummadi, Naveen Kumar Uppalapati, Girish Chowdhary

分类: cs.RO

发布日期: 2026-03-24

备注: 8 pages, 6 figures


💡 一句话要点

CATNAV:基于缓存的视觉-语言可通行性,实现高效的零样本机器人导航

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人导航 视觉语言模型 零样本学习 可通行性分析 成本地图

📋 核心要点

  1. 现有方法难以评估非结构化环境中机器人相对于自身物理能力的可通行风险,阻碍了通用导航。
  2. CATNAV利用多模态LLM生成成本地图,通过视觉语义缓存重用风险评估,并使用VLM进行轨迹选择。
  3. 实验表明,CATNAV在目标到达率上提升了10%,行为约束违规减少了33%,显著优于现有方法。

📝 摘要(中文)

本文提出了一种名为CATNAV的成本感知可通行性导航框架,该框架利用多模态LLM进行零样本、体现感知的成本地图生成,无需特定任务的训练。CATNAV引入了一种视觉语义缓存机制,用于检测场景的新颖性,并重用先前对语义相似帧的风险评估,从而减少了85.7%的在线VLM查询。此外,还引入了一个基于VLM的轨迹选择模块,该模块通过视觉推理评估提议,以根据行为约束选择最安全的路径。在室内和室外非结构化环境中,对四足机器人进行了CATNAV的评估,并与最先进的视觉-语言-动作基线进行了比较。在五个导航任务中,CATNAV的平均目标到达率提高了10个百分点,行为约束违规减少了33%。

🔬 方法详解

问题定义:现有机器人导航方法在非结构化环境中,难以根据机器人的具体形态和物理能力评估地形的可通行性。这导致机器人难以安全有效地穿越复杂环境。此外,依赖于特定任务训练的方法泛化能力较差,难以适应新的环境和任务。

核心思路:CATNAV的核心思路是利用多模态大型语言模型(LLM)的强大视觉理解能力,结合机器人的物理参数,生成成本地图,从而评估地形的可通行性。通过视觉语义缓存机制,避免重复计算,提高效率。同时,利用VLM进行轨迹选择,确保选择最安全的路径。

技术框架:CATNAV框架包含以下几个主要模块:1) 视觉语义缓存模块:用于检测场景的新颖性,并重用先前对语义相似帧的风险评估。2) 基于VLM的成本地图生成模块:利用多模态LLM,根据机器人的物理参数和视觉输入,生成成本地图,表示地形的可通行性。3) 基于VLM的轨迹选择模块:评估多个候选轨迹,选择最安全且满足行为约束的路径。

关键创新:CATNAV的关键创新在于:1) 提出了一种零样本、体现感知的成本地图生成方法,无需特定任务的训练。2) 引入了视觉语义缓存机制,显著减少了在线VLM查询次数,提高了效率。3) 利用VLM进行轨迹选择,提高了导航的安全性。

关键设计:视觉语义缓存模块使用预训练的视觉特征提取器(例如CLIP)提取图像特征,并使用k-d树等数据结构进行快速相似性搜索。成本地图生成模块使用LLM将视觉信息和机器人参数映射到成本值。轨迹选择模块使用VLM评估每个候选轨迹的安全性,并根据行为约束进行排序。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CATNAV在五个导航任务中,平均目标到达率比现有方法提高了10个百分点,行为约束违规减少了33%。视觉语义缓存机制能够减少85.7%的在线VLM查询,显著提高了效率。这些结果表明,CATNAV在非结构化环境下的机器人导航方面具有显著优势。

🎯 应用场景

CATNAV可应用于各种机器人导航场景,例如搜救机器人、农业机器人、巡检机器人等。该方法能够使机器人在复杂、非结构化的环境中安全、高效地自主导航,具有重要的实际应用价值。未来,可以进一步研究如何将CATNAV与其他导航算法相结合,提高导航的鲁棒性和适应性。

📄 摘要(原文)

Navigating unstructured environments requires assessing traversal risk relative to a robot's physical capabilities, a challenge that varies across embodiments. We present CATNAV, a cost-aware traversability navigation framework that leverages multimodal LLMs for zero-shot, embodiment-aware costmap generation without task-specific training. We introduce a visuosemantic caching mechanism that detects scene novelty and reuses prior risk assessments for semantically similar frames, reducing online VLM queries by 85.7%. Furthermore, we introduce a VLM-based trajectory selection module that evaluates proposals through visual reasoning to choose the safest path given behavioral constraints. We evaluate CATNAV on a quadruped robot across indoor and outdoor unstructured environments, comparing against state-of-the-art vision-language-action baselines. Across five navigation tasks, CATNAV achieves 10 percentage point higher average goal-reaching rate and 33% fewer behavioral constraint violations.