OMEGA: Efficient Occlusion-Aware Navigation for Air-Ground Robot in Dynamic Environments via State Space Model

📄 arXiv: 2408.10618v2 📥 PDF

作者: Junming Wang, Xiuxian Guan, Zekai Sun, Tianxiang Shen, Dong Huang, Fangming Liu, Heming Cui

分类: cs.RO, cs.AI, cs.CV

发布日期: 2024-08-20 (更新: 2024-12-05)

备注: Accepted to IEEE RA-L | OccMamba is here!

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出OMEGA,通过状态空间模型实现动态环境中空地机器人的高效避障导航

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 空地机器人 动态环境导航 遮挡感知 语义 occupancy 地图 Mamba块

📋 核心要点

  1. 现有空地机器人导航系统在静态遮挡环境中表现良好,但在动态、严重遮挡场景中,感知精度和计算开销成为瓶颈。
  2. OMEGA通过OccMamba分离语义和 occupancy 预测,利用Mamba块高效提取特征,并在BEV空间融合,降低计算量。
  3. 实验表明,OccMamba在mIoU上优于现有方法25%,OMEGA在动态场景导航中实现了96%的平均规划成功率。

📝 摘要(中文)

本文提出OMEGA,旨在解决空地机器人在动态、严重遮挡场景(如人群)中的导航问题。现有方法在静态遮挡环境中表现良好,但感知网络预测精度低,路径规划器计算开销大,难以应对动态环境。OMEGA包含OccMamba和高效空地机器人规划器。OccMamba采用新颖架构,将语义和 occupancy 预测分离为独立分支,并在其中融入Mamba块,以线性复杂度高效提取3D环境中的语义和几何特征,从而学习长距离依赖关系,提高预测精度。语义和几何特征在鸟瞰图(BEV)空间中融合,最小化计算开销。生成的语义 occupancy 地图无缝集成到局部地图中,提供动态环境的遮挡感知。空地机器人规划器利用该局部地图,采用运动学A*搜索和基于梯度的轨迹优化,保证规划的轨迹是无ESDF的且节能的。实验表明,OccMamba的mIoU比现有3D语义 occupancy 网络高25.0%。在动态场景中的端到端导航实验验证了OMEGA的效率,平均规划成功率达到96%。

🔬 方法详解

问题定义:论文旨在解决动态遮挡环境下空地机器人的高效导航问题。现有方法依赖于3D语义 occupancy 网络预测遮挡,并计算ESDF进行路径规划,但在动态环境中,感知网络的预测精度较低,且路径规划器的计算开销较大,难以满足实时性要求。

核心思路:论文的核心思路是将语义和 occupancy 预测分离,并利用Mamba块高效提取3D环境中的特征,从而提高预测精度并降低计算复杂度。同时,在BEV空间进行特征融合,进一步减少计算开销。最后,结合运动学A*搜索和梯度优化,实现高效节能的路径规划。

技术框架:OMEGA系统主要包含两个模块:OccMamba和高效空地机器人规划器。OccMamba负责构建动态环境的语义 occupancy 地图,它首先将RGB-D数据输入到两个独立的Mamba块中,分别提取语义和几何特征。然后在BEV空间融合这些特征,生成语义 occupancy 地图。空地机器人规划器则利用该地图,首先使用运动学A*搜索生成初始路径,然后使用基于梯度的轨迹优化方法,得到最终的无碰撞且节能的轨迹。

关键创新:论文的关键创新在于OccMamba的网络架构,它将语义和 occupancy 预测分离为独立的分支,并引入Mamba块。Mamba块能够以线性复杂度提取3D环境中的长距离依赖关系,从而提高预测精度。与现有方法相比,OccMamba在特征提取和融合方面更加高效。

关键设计:OccMamba的关键设计包括:1) 独立的语义和 occupancy 预测分支;2) Mamba块的使用,用于高效提取特征;3) 在BEV空间进行特征融合,降低计算量;4) 运动学A*搜索和梯度优化相结合的路径规划方法。具体的参数设置和损失函数等细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OccMamba在3D语义 occupancy 预测任务中,mIoU指标比现有最优方法提高了25.0%。在动态场景的端到端导航实验中,OMEGA实现了96%的平均规划成功率,验证了其在复杂环境下的高效性和可靠性。这些结果表明,OMEGA在动态遮挡环境下的空地机器人导航方面具有显著优势。

🎯 应用场景

该研究成果可应用于多种场景,如灾难救援、安防巡逻、物流配送等。在这些场景中,空地机器人需要在动态、复杂的环境中进行导航,快速、准确地避开障碍物。OMEGA能够提高空地机器人在这些场景中的自主性和效率,降低人工干预的需求,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Air-ground robots (AGRs) are widely used in surveillance and disaster response due to their exceptional mobility and versatility (i.e., flying and driving). Current AGR navigation systems perform well in static occlusion-prone environments (e.g., indoors) by using 3D semantic occupancy networks to predict occlusions for complete local mapping and then computing Euclidean Signed Distance Field (ESDF) for path planning. However, these systems face challenges in dynamic, severe occlusion scenes (e.g., crowds) due to limitations in perception networks' low prediction accuracy and path planners' high computation overhead. In this paper, we propose OMEGA, which contains OccMamba with an Efficient AGR-Planner to address the above-mentioned problems. OccMamba adopts a novel architecture that separates semantic and occupancy prediction into independent branches, incorporating two mamba blocks within these branches. These blocks efficiently extract semantic and geometric features in 3D environments with linear complexity, ensuring that the network can learn long-distance dependencies to improve prediction accuracy. Semantic and geometric features are combined within the Bird's Eye View (BEV) space to minimise computational overhead during feature fusion. The resulting semantic occupancy map is then seamlessly integrated into the local map, providing occlusion awareness of the dynamic environment. Our AGR-Planner utilizes this local map and employs kinodynamic A* search and gradient-based trajectory optimization to guarantee planning is ESDF-free and energy-efficient. Extensive experiments demonstrate that OccMamba outperforms the state-of-the-art 3D semantic occupancy network with 25.0% mIoU. End-to-end navigation experiments in dynamic scenes verify OMEGA's efficiency, achieving a 96% average planning success rate. Code and video are available at https://jmwang0117.github.io/OMEGA/.