TravExplorer: Cross-Floor Embodied Exploration via Traversability-Aware 3-D Planning
作者: Han Zheng, Zhe Chen, Yudong Huang, Haoran Liu, Jinghao Wang, Ming Yang, Tong Qin
分类: cs.RO
发布日期: 2026-05-19
🔗 代码/项目: GITHUB
💡 一句话要点
TravExplorer:基于可通行性三维规划的跨楼层具身探索
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 具身探索 跨楼层导航 零样本物体导航 三维规划 可通行性分析
📋 核心要点
- 现有零样本物体导航方法局限于平面表示和单层假设,无法有效应对真实建筑中跨楼层导航的复杂性。
- TravExplorer结合零样本语义引导与可通行性感知的三维规划,维护统一体素地图,提取可通行边界,实现跨楼层探索。
- 实验表明,TravExplorer在模拟和真实环境中均优于现有方法,验证了其在跨楼层开放词汇目标搜索中的有效性。
📝 摘要(中文)
零样本物体导航(ZSON)在未见环境中进行开放词汇目标搜索展现了潜力,但现有系统大多局限于平面表示和单层假设。这些假设在实际建筑中是不够的,因为导航涉及楼层、楼梯、平台和垂直重叠空间。本文提出了TravExplorer,一个跨楼层具身探索框架,它将零样本语义引导与可通行性感知的三维规划相结合。TravExplorer维护一个统一的体素地图,区分被占据的结构和机器人可到达的支撑面,并从连接的支撑面(包括地板、楼梯和平台)中提取可通行的边界。一种FOV感知的积极感知策略进一步解决了跨楼层遍历期间的不完整观测。为了减少语义推理延迟,一个轻量级引导模块将来自在线开放词汇分割的概率实例地图与来自快速图像到文本匹配的空间价值地图对齐。基于这些几何和语义记忆,一个分层规划器对物体假设、可通行边界和楼梯地标执行目标感知的边界巡视,并通过立足点引导的三维搜索和垂直约束的局部轨迹优化生成可执行的跨楼层运动。在HM3D和MP3D上进行的4195次模拟实验证明了相对于代表性ObjectNav基线的持续优势。在Unitree Go2上进行的50次真实世界试验进一步验证了在没有先验地图或人工干预的情况下,跨单层和跨楼层室内环境的开放词汇目标搜索。
🔬 方法详解
问题定义:现有零样本物体导航方法无法有效处理真实建筑中存在的跨楼层导航问题,例如楼梯、平台等复杂结构,并且通常依赖于平面地图,缺乏对三维空间可通行性的理解。这限制了机器人在复杂环境中的导航能力。
核心思路:TravExplorer的核心思路是将零样本语义引导与可通行性感知的三维规划相结合,构建一个能够理解和利用三维空间结构信息的导航系统。通过维护一个统一的体素地图,区分可通行和不可通行的区域,并利用语义信息引导探索过程,从而实现高效的跨楼层导航。
技术框架:TravExplorer包含以下主要模块:1) 体素地图构建:维护一个统一的体素地图,区分被占据的结构和机器人可到达的支撑面。2) 可通行边界提取:从连接的支撑面(包括地板、楼梯和平台)中提取可通行的边界。3) FOV感知的积极感知:解决跨楼层遍历期间的不完整观测。4) 轻量级语义引导:将来自在线开放词汇分割的概率实例地图与来自快速图像到文本匹配的空间价值地图对齐。5) 分层规划器:对物体假设、可通行边界和楼梯地标执行目标感知的边界巡视,并通过立足点引导的三维搜索和垂直约束的局部轨迹优化生成可执行的跨楼层运动。
关键创新:TravExplorer的关键创新在于其结合了三维可通行性分析和零样本语义引导,实现跨楼层导航。与现有方法相比,它能够更好地理解和利用环境的三维结构信息,从而更有效地进行探索和目标搜索。此外,轻量级的语义引导模块降低了语义推理的延迟,提高了系统的实时性。
关键设计:该方法使用体素地图来表示环境,并使用基于图像到文本匹配的空间价值地图来引导探索。分层规划器包含全局规划和局部规划两个层次,全局规划负责选择探索目标,局部规划负责生成可执行的轨迹。此外,系统还采用了FOV感知的积极感知策略,以解决跨楼层遍历期间的不完整观测问题。
🖼️ 关键图片
📊 实验亮点
在HM3D和MP3D数据集上进行的4195次模拟实验表明,TravExplorer相对于代表性的ObjectNav基线具有持续的优势。在Unitree Go2机器人上进行的50次真实世界试验进一步验证了其在没有先验地图或人工干预的情况下,跨单层和跨楼层室内环境的开放词汇目标搜索能力。实验结果表明,该方法在真实环境中具有良好的泛化能力。
🎯 应用场景
TravExplorer具有广泛的应用前景,可应用于家庭服务机器人、安防巡逻机器人、物流配送机器人等领域。该技术能够使机器人在复杂的室内环境中自主导航,完成诸如物品寻找、环境监控等任务。未来,该技术有望进一步扩展到室外环境,应用于搜索救援、灾害评估等领域。
📄 摘要(原文)
Zero-shot Object Navigation (ZSON) has shown promise for open-vocabulary target search in unseen environments, yet most existing systems remain tied to planar representations and single-floor assumptions. These assumptions become inadequate in real buildings, where navigation involves floors, stairs, landings, and vertically overlapping spaces. This article presents TravExplorer, a cross-floor embodied exploration framework that couples zero-shot semantic guidance with traversability-aware 3-D planning. TravExplorer maintains a unified volumetric map that distinguishes occupied structures from robot-reachable support surfaces and extracts traversable frontiers from connected support surfaces, including floors, stairs, and landings. A FOV-aware active perception strategy further resolves incomplete observations during cross-floor traversal. To reduce semantic-reasoning latency, a lightweight guidance module aligns a probabilistic instance map from online open-vocabulary segmentation with a spatial value map from fast image-to-text matching. Based on these geometric and semantic memories, a hierarchical planner performs target-aware frontier touring over object hypotheses, traversable frontiers, and stair landmarks, and generates executable cross-floor motions through foothold-guided 3-D search and vertically constrained local trajectory optimization. Experiments over 4,195 simulated episodes on HM3D and MP3D demonstrate consistent advantages over representative ObjectNav baselines. Fifty real-world trials on a Unitree Go2 further validate open-vocabulary target search across single-floor and cross-floor indoor environments without prior maps or human intervention. The code will be released at https://github.com/wuyi2121/TravExplorer.