Quadruped Parkour Learning: Sparsely Gated Mixture of Experts with Visual Input

📄 arXiv: 2604.19344v1 📥 PDF

作者: Michael Ziegltrum, Jianhao Jiao, Tianhu Peng, Chengxu Zhou, Dimitrios Kanoulas

分类: cs.RO

发布日期: 2026-04-21

备注: 8 pages, 5 figures


💡 一句话要点

提出基于视觉输入的稀疏门控混合专家模型,提升四足机器人跑酷性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 四足机器人 跑酷 混合专家模型 视觉控制 稀疏门控

📋 核心要点

  1. 现有机器人跑酷方法依赖于密集激活层的MLP,计算成本高,难以扩展到复杂环境。
  2. 提出使用稀疏门控混合专家模型(MoE),在推理时只激活部分参数,提高计算效率。
  3. 实验表明,MoE策略在四足机器人跑酷中,成功穿越大型障碍物的次数是MLP基线的两倍。

📝 摘要(中文)

本文研究了稀疏门控混合专家(MoE)架构在基于视觉的机器人跑酷中的应用。机器人跑酷为推进在极具挑战性地形(包括高架台阶等大型不连续地形)上的运动提供了一个引人注目的基准。最近的方法已经展示了令人印象深刻的能力,包括动态攀爬和跳跃,但通常依赖于具有密集激活层的顺序多层感知器(MLP)架构。相比之下,稀疏门控MoE架构已成为大型语言模型领域中一种有效的范例,通过在推理时仅激活参数的子集来提高可扩展性和性能。在受控设置下,当推理时激活的参数数量匹配时,我们比较了基于标准MLP和MoE架构的控制策略。在真实的Unitree Go2四足机器人上的实验结果表明,MoE策略在穿越大型障碍物方面的成功试验次数是标准MLP基线的两倍,性能提升明显。我们进一步表明,使用标准MLP实现可比的性能需要扩展其参数数量以匹配整个MoE模型,从而导致计算时间增加14.3%。这些结果表明,稀疏门控MoE架构在性能和计算效率之间提供了良好的权衡,从而能够改进基于视觉的机器人跑酷的控制策略的扩展。

🔬 方法详解

问题定义:论文旨在解决四足机器人如何在复杂地形(例如包含大型障碍物的跑酷场景)中进行高效、鲁棒的运动控制问题。现有方法,特别是基于深度学习的控制策略,通常采用密集连接的多层感知机(MLP),这导致了较高的计算成本和较差的可扩展性,难以适应复杂环境和实时控制需求。

核心思路:论文的核心思路是利用稀疏门控混合专家模型(MoE)来提高控制策略的计算效率和性能。MoE通过在推理时只激活一部分专家网络,从而减少了计算量,同时允许模型拥有更大的容量,从而能够学习更复杂的控制策略。这种稀疏激活的特性使得模型能够在性能和计算效率之间取得更好的平衡。

技术框架:整体框架包含以下几个主要模块:1) 视觉输入模块:从机器人携带的摄像头获取环境图像。2) 特征提取模块:对视觉输入进行处理,提取有用的特征信息。3) MoE控制策略模块:这是核心模块,包含一个门控网络和多个专家网络。门控网络根据输入特征选择激活哪些专家网络。4) 运动控制模块:根据激活的专家网络的输出,生成机器人的关节控制指令。整个流程是端到端的,从视觉输入直接到运动控制指令。

关键创新:最重要的技术创新点是将稀疏门控混合专家模型(MoE)引入到机器人跑酷的控制策略中。与传统的密集连接的MLP相比,MoE能够在保证性能的同时显著降低计算量。这种稀疏激活的特性使得模型能够更好地扩展到复杂环境,并实现实时的运动控制。

关键设计:论文的关键设计包括:1) 门控网络的选择:门控网络的设计至关重要,它决定了哪些专家网络被激活。论文可能采用了softmax或其他稀疏激活函数来实现门控功能。2) 专家网络的结构:专家网络可以是MLP或其他更复杂的网络结构,具体选择取决于任务的复杂程度。3) 损失函数的设计:损失函数需要能够引导模型学习到有效的控制策略,例如,可以使用强化学习中的奖励函数或模仿学习中的行为克隆损失函数。4) 参数设置:例如,专家网络的数量、门控网络的层数、学习率等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于MoE的控制策略在穿越大型障碍物方面的成功率是标准MLP基线的两倍。此外,为了达到与MoE策略相当的性能,标准MLP需要增加参数数量,导致计算时间增加14.3%。这些结果表明,MoE架构在性能和计算效率之间取得了更好的平衡。

🎯 应用场景

该研究成果可应用于各种复杂地形下的机器人运动控制,例如搜救、勘探、物流等领域。通过提高机器人在复杂环境中的运动能力和效率,可以使其在这些领域发挥更大的作用。此外,该方法还可以推广到其他类型的机器人,例如无人机、水下机器人等,从而提高其在各自领域的应用价值。

📄 摘要(原文)

Robotic parkour provides a compelling benchmark for advancing locomotion over highly challenging terrain, including large discontinuities such as elevated steps. Recent approaches have demonstrated impressive capabilities, including dynamic climbing and jumping, but typically rely on sequential multilayer perceptron (MLP) architectures with densely activated layers. In contrast, sparsely gated mixture-of-experts (MoE) architectures have emerged in the large language model domain as an effective paradigm for improving scalability and performance by activating only a subset of parameters at inference time. In this work, we investigate the application of sparsely gated MoE architectures to vision-based robotic parkour. We compare control policies based on standard MLPs and MoE architectures under a controlled setting where the number of active parameters at inference time is matched. Experimental results on a real Unitree Go2 quadruped robot demonstrate clear performance gains, with the MoE policy achieving double the number of successful trials in traversing large obstacles compared to a standard MLP baseline. We further show that achieving comparable performance with a standard MLP requires scaling its parameter count to match that of the total MoE model, resulting in a 14.3\% increase in computation time. These results highlight that sparsely gated MoE architectures provide a favorable trade-off between performance and computational efficiency, enabling improved scaling of control policies for vision-based robotic parkour. An anonymized link to the codebase is https://osf.io/v2kqj/files/github?view_only=7977dee10c0a44769184498eaba72e44.