OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms

📄 arXiv: 2603.17351v1 📥 PDF

作者: Zhongyuang Liu, Min He, Shaonan Yu, Xinhang Xu, Muqing Cao, Jianping Li, Jianfei Yang, Lihua Xie

分类: cs.RO

发布日期: 2026-03-18


💡 一句话要点

OmniVLN:面向空地平台视觉语言导航的3D全向感知与高效LLM推理

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 全向感知 动态场景图 大型语言模型 机器人 分层推理 空间注意力

📋 核心要点

  1. 现有视觉语言导航系统在真实室内环境中受限于狭窄的视野,导致空间理解不完整,目标搜索效率低。
  2. OmniVLN通过融合全向3D感知和token高效的分层推理,构建动态场景图,并利用多分辨率空间注意力提示LLM进行导航。
  3. 实验结果表明,OmniVLN显著提高了空间指代精度和导航成功率,并有效减少了LLM的token使用量。

📝 摘要(中文)

本文提出OmniVLN,一个零样本视觉语言导航框架,它结合了全向3D感知和token高效的分层推理,适用于空中和地面机器人。OmniVLN融合了旋转激光雷达和全景视觉,构建了一个硬件无关的建图堆栈,并从网格几何体增量构建一个五层动态场景图(DSG),通过基于持久同调的房间分割和混合几何/VLM关系验证来稳定高层拓扑。在导航方面,全局DSG被转换为以智能体为中心的3D八分体表示,并采用多分辨率空间注意力提示,使LLM能够逐步过滤候选房间,推断自我中心方向,定位目标对象,并发出可执行的导航原语,同时保留精细的局部细节和紧凑的远程记忆。实验表明,所提出的分层接口将空间指代精度从77.27%提高到93.18%,在杂乱的多房间环境中将累积提示token减少高达61.7%,并将导航成功率比平面列表基线提高高达11.68%。我们将发布代码和一个全向多模态数据集,以支持可重复的研究。

🔬 方法详解

问题定义:现有的视觉语言导航系统在真实室内环境中面临挑战,主要原因是机器人通常只能获取局部场景信息,导致空间理解不完整,目标搜索效率低下。此外,直接使用稠密的3D地图或详尽的对象列表提示大型语言模型(LLM)会迅速超出上下文预算,限制了其应用。

核心思路:OmniVLN的核心思路是结合全向3D感知和token高效的分层推理。通过全向感知获取更全面的环境信息,并构建分层场景图来抽象环境结构。利用多分辨率空间注意力机制,使LLM能够高效地处理环境信息,逐步缩小搜索范围,最终实现精确导航。

技术框架:OmniVLN的整体框架包括以下几个主要模块:1) 全向感知模块:融合旋转激光雷达和全景视觉数据,构建硬件无关的建图堆栈。2) 动态场景图(DSG)构建模块:从网格几何体增量构建五层DSG,表示从mesh到building的结构化信息。3) 拓扑稳定模块:通过基于持久同调的房间分割和混合几何/VLM关系验证来稳定高层拓扑。4) 导航模块:将全局DSG转换为以智能体为中心的3D八分体表示,并采用多分辨率空间注意力提示LLM进行导航。

关键创新:OmniVLN的关键创新在于其分层场景图表示和多分辨率空间注意力机制。分层场景图能够有效地抽象环境结构,减少LLM需要处理的信息量。多分辨率空间注意力机制允许LLM在不同尺度上关注环境信息,从而提高导航效率和精度。此外,该框架是硬件无关的,可以应用于不同的机器人平台。

关键设计:在动态场景图构建中,使用了持久同调来分割房间,保证拓扑结构的稳定性。在导航模块中,将全局DSG转换为以智能体为中心的3D八分体表示,并使用多分辨率空间注意力机制来提示LLM。具体来说,使用了不同分辨率的八分体来表示不同距离的环境信息,并设计了相应的注意力机制来引导LLM关注重要的区域。损失函数的设计未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OmniVLN在空间指代精度方面从77.27%提升到93.18%,在杂乱的多房间环境中,累积提示token减少高达61.7%,导航成功率比平面列表基线提高高达11.68%。这些数据表明,OmniVLN在提高导航性能和降低计算成本方面具有显著优势。

🎯 应用场景

OmniVLN具有广泛的应用前景,可应用于室内服务机器人、无人机巡检、智能家居等领域。该研究能够提升机器人在复杂环境中的导航能力,使其能够更好地理解人类指令,完成各种任务。未来,该技术有望应用于更复杂的场景,例如灾难救援、工业自动化等。

📄 摘要(原文)

Language-guided embodied navigation requires an agent to interpret object-referential instructions, search across multiple rooms, localize the referenced target, and execute reliable motion toward it. Existing systems remain limited in real indoor environments because narrow field-of-view sensing exposes only a partial local scene at each step, often forcing repeated rotations, delaying target discovery, and producing fragmented spatial understanding; meanwhile, directly prompting LLMs with dense 3D maps or exhaustive object lists quickly exceeds the context budget. We present OmniVLN, a zero-shot visual-language navigation framework that couples omnidirectional 3D perception with token-efficient hierarchical reasoning for both aerial and ground robots. OmniVLN fuses a rotating LiDAR and panoramic vision into a hardware-agnostic mapping stack, incrementally constructs a five-layer Dynamic Scene Graph (DSG) from mesh geometry to room- and building-level structure, and stabilizes high-level topology through persistent-homology-based room partitioning and hybrid geometric/VLM relation verification. For navigation, the global DSG is transformed into an agent-centric 3D octant representation with multi-resolution spatial attention prompting, enabling the LLM to progressively filter candidate rooms, infer egocentric orientation, localize target objects, and emit executable navigation primitives while preserving fine local detail and compact long-range memory. Experiments show that the proposed hierarchical interface improves spatial referring accuracy from 77.27\% to 93.18\%, reduces cumulative prompt tokens by up to 61.7\% in cluttered multi-room settings, and improves navigation success by up to 11.68\% over a flat-list baseline. We will release the code and an omnidirectional multimodal dataset to support reproducible research.