REASAN: Learning Reactive Safe Navigation for Legged Robots

📄 arXiv: 2512.09537v1 📥 PDF

作者: Qihao Yuan, Ziyu Cao, Ming Cao, Kailai Li

分类: cs.RO

发布日期: 2025-12-10

备注: 8 pages

🔗 代码/项目: GITHUB


💡 一句话要点

REASAN:面向复杂动态环境,学习腿式机器人反应式安全导航

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)

关键词: 腿式机器人 反应式导航 强化学习 Transformer 安全防护 模块化设计 实时控制

📋 核心要点

  1. 现有腿式机器人导航方法在复杂动态环境中缺乏足够的鲁棒性和实时性,难以应对突发情况。
  2. REASAN通过模块化设计,将导航任务分解为运动、安全防护和导航三个子策略,并使用强化学习进行训练。
  3. 实验表明,REASAN在复杂导航任务中表现出更高的鲁棒性,并实现了完全板载和实时反应式导航。

📝 摘要(中文)

本文提出了一种新颖的模块化端到端框架,用于腿式机器人在复杂动态环境中进行反应式导航,该框架仅使用单个激光雷达(LiDAR)传感器。该系统包含四个仿真训练的模块:三个用于运动、安全防护和导航的强化学习(RL)策略,以及一个基于Transformer的外部感知估计器,用于处理原始点云输入。这种对复杂腿式运动控制任务的模块化分解,使得可以使用具有简单架构的轻量级神经网络,通过标准RL实践以及有针对性的奖励塑造和课程设计进行训练,而无需依赖启发式方法或复杂的策略切换机制。我们进行了全面的消融实验,以验证我们的设计选择,并证明在具有挑战性的导航任务中,与现有方法相比,鲁棒性有所提高。最终的反应式安全导航(REASAN)系统实现了在复杂环境中的单机器人和多机器人设置下的完全板载和实时反应式导航。我们在https://github.com/ASIG-X/REASAN上发布了我们的训练和部署代码。

🔬 方法详解

问题定义:论文旨在解决腿式机器人在复杂动态环境中安全、实时导航的问题。现有方法通常依赖于启发式规则或复杂的策略切换机制,难以适应环境变化,并且计算成本较高,难以实现完全板载的实时控制。

核心思路:论文的核心思路是将复杂的导航任务分解为若干个模块化的子任务,并分别使用强化学习训练相应的策略。通过模块化设计,降低了每个模块的复杂度,使得可以使用轻量级的神经网络,从而提高计算效率和鲁棒性。同时,使用Transformer进行环境感知,能够有效处理原始点云数据。

技术框架:REASAN系统包含四个主要模块:1) 基于Transformer的外部感知估计器,用于处理LiDAR点云数据,提取环境特征;2) 运动策略,控制机器人的基本运动;3) 安全防护策略,负责避免碰撞;4) 导航策略,引导机器人到达目标位置。后三个模块均使用强化学习训练。整体流程是:LiDAR数据经过Transformer处理后,输入到三个RL策略中,分别输出相应的控制指令,最终控制机器人运动。

关键创新:REASAN的关键创新在于其模块化的端到端框架,以及使用强化学习训练各个模块的策略。与现有方法相比,REASAN无需依赖启发式规则或复杂的策略切换机制,能够更好地适应环境变化,并且计算效率更高。此外,使用Transformer进行环境感知,能够有效处理原始点云数据,提高环境感知的准确性。

关键设计:论文使用了标准的强化学习方法,包括奖励塑造和课程设计,来训练各个模块的策略。具体来说,运动策略的奖励函数包括前进速度、能量消耗等;安全防护策略的奖励函数包括与障碍物的距离等;导航策略的奖励函数包括与目标位置的距离等。Transformer的网络结构采用了标准的Transformer编码器结构,具体参数设置未知。

📊 实验亮点

实验结果表明,REASAN在复杂导航任务中表现出更高的鲁棒性,能够成功地在单机器人和多机器人环境中进行实时反应式导航。与现有方法相比,REASAN能够更好地避免碰撞,并更快地到达目标位置。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

REASAN具有广泛的应用前景,例如在仓库、工厂等复杂环境中进行自主导航,在灾难救援等场景中进行搜索和救援,以及在家庭服务等领域提供智能服务。该研究成果有助于提高腿式机器人的自主性和适应性,使其能够更好地服务于人类。

📄 摘要(原文)

We present a novel modularized end-to-end framework for legged reactive navigation in complex dynamic environments using a single light detection and ranging (LiDAR) sensor. The system comprises four simulation-trained modules: three reinforcement-learning (RL) policies for locomotion, safety shielding, and navigation, and a transformer-based exteroceptive estimator that processes raw point-cloud inputs. This modular decomposition of complex legged motor-control tasks enables lightweight neural networks with simple architectures, trained using standard RL practices with targeted reward shaping and curriculum design, without reliance on heuristics or sophisticated policy-switching mechanisms. We conduct comprehensive ablations to validate our design choices and demonstrate improved robustness compared to existing approaches in challenging navigation tasks. The resulting reactive safe navigation (REASAN) system achieves fully onboard and real-time reactive navigation across both single- and multi-robot settings in complex environments. We release our training and deployment code at https://github.com/ASIG-X/REASAN.