REAL: Robust Extreme Agility via Spatio-Temporal Policy Learning and Physics-Guided Filtering

📄 arXiv: 2603.17653v1 📥 PDF

作者: Jialong Liu, Dehan Shen, Yanbo Wen, Zeyu Jiang, Changhao Chen

分类: cs.RO

发布日期: 2026-03-18


💡 一句话要点

REAL:基于时空策略学习和物理引导滤波的鲁棒极限敏捷控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 足式机器人 极限运动 鲁棒控制 时空策略学习 物理引导 Mamba网络 视觉噪声过滤 贝叶斯状态估计

📋 核心要点

  1. 现有基于学习的足式机器人系统在感知退化时表现脆弱,视觉噪声或延迟易导致失败。
  2. REAL框架通过耦合视觉、本体感受历史和时间记忆,并利用FiLM-Mamba网络过滤噪声,构建短期地形记忆。
  3. 实验表明,REAL在存在视觉盲区的情况下,仍能使Unitree Go2成功穿越极端障碍,并满足实时控制约束。

📝 摘要(中文)

极限足式跑酷需要在高度动态的条件下快速评估地形并精确地放置脚。虽然最近基于学习的系统实现了令人印象深刻的敏捷性,但它们在感知退化方面仍然非常脆弱,即使是短暂的视觉噪声或延迟也可能导致灾难性的失败。为了克服这个问题,我们提出了鲁棒极限敏捷学习(REAL),这是一个端到端框架,用于在感官损坏下进行可靠的跑酷。REAL没有依赖于完全干净的感知,而是紧密地耦合了视觉、本体感受历史和时间记忆。我们将跨模态教师策略提炼成一个可部署的学生,该学生配备了FiLM调制的Mamba骨干网络,以主动过滤视觉噪声并主动构建短期地形记忆。此外,物理引导的贝叶斯状态估计器在高度冲击的机动过程中强制执行刚体一致性。在Unitree Go2四足机器人上验证,即使在1米的视觉盲区下,REAL也能成功地穿越极端障碍物,同时严格满足具有有界13.1毫秒推理时间的实时控制约束。

🔬 方法详解

问题定义:论文旨在解决足式机器人在极限运动场景下,因感知信息受损(如视觉噪声、延迟)而导致的运动控制失败问题。现有方法过度依赖完美的感知输入,缺乏对感知噪声的鲁棒性。

核心思路:论文的核心思路是将视觉信息、本体感受历史信息以及时间记忆进行紧密耦合,利用跨模态信息互补来提升系统对感知噪声的鲁棒性。同时,利用物理引导的贝叶斯状态估计器来保证运动过程中的物理一致性。

技术框架:REAL框架包含以下几个主要模块:1) 跨模态教师策略:用于生成高质量的运动控制策略。2) FiLM-modulated Mamba学生策略:通过蒸馏学习,将教师策略迁移到学生策略,并利用FiLM机制调节Mamba骨干网络,实现视觉噪声过滤和短期地形记忆构建。3) 物理引导的贝叶斯状态估计器:利用物理模型约束,对机器人状态进行估计,保证运动过程中的刚体一致性。

关键创新:论文的关键创新在于:1) 提出了一种基于FiLM-Mamba的视觉噪声过滤和短期记忆构建方法,能够有效应对感知信息受损的情况。2) 引入了物理引导的贝叶斯状态估计器,提升了状态估计的准确性和鲁棒性。3) 提出了一个端到端的学习框架,能够直接从感知信息到运动控制,简化了系统设计。

关键设计:在FiLM-Mamba网络中,FiLM层用于根据本体感受信息调节Mamba骨干网络的参数,从而实现视觉信息的选择性过滤和增强。Mamba骨干网络则用于建模地形的时间依赖性。物理引导的贝叶斯状态估计器利用机器人的动力学模型作为先验信息,结合传感器数据进行状态估计。损失函数包括运动学损失、动力学损失和控制损失,用于约束机器人的运动轨迹和控制力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,REAL框架在Unitree Go2四足机器人上实现了鲁棒的极限运动控制。即使存在1米的视觉盲区,REAL仍然能够成功穿越极端障碍物。同时,REAL满足实时控制约束,推理时间保持在13.1毫秒以内。相较于其他方法,REAL在感知受损情况下的性能显著提升。

🎯 应用场景

该研究成果可应用于搜救、勘探、巡检等复杂环境下的足式机器人控制。通过提升机器人对感知噪声的鲁棒性,使其能够在恶劣环境下稳定可靠地执行任务。未来,该技术有望扩展到其他类型的机器人,例如无人机、水下机器人等。

📄 摘要(原文)

Extreme legged parkour demands rapid terrain assessment and precise foot placement under highly dynamic conditions. While recent learning-based systems achieve impressive agility, they remain fundamentally fragile to perceptual degradation, where even brief visual noise or latency can cause catastrophic failure. To overcome this, we propose Robust Extreme Agility Learning (REAL), an end-to-end framework for reliable parkour under sensory corruption. Instead of relying on perfectly clean perception, REAL tightly couples vision, proprioceptive history, and temporal memory. We distill a cross-modal teacher policy into a deployable student equipped with a FiLM-modulated Mamba backbone to actively filter visual noise and build short-term terrain memory actively. Furthermore, a physics-guided Bayesian state estimator enforces rigid-body consistency during high-impact maneuvers. Validated on a Unitree Go2 quadruped, REAL successfully traverses extreme obstacles even with a 1-meter visual blind zone, while strictly satisfying real-time control constraints with a bounded 13.1 ms inference time.