LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning

📄 arXiv: 2603.08476v1 📥 PDF

作者: Ariel Rodriguez, Chenpan Li, Lorenzo Mazza, Rayan Younis, Ortrun Hellig, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel

分类: cs.RO

发布日期: 2026-03-09

备注: Submitted to iROS 2026


💡 一句话要点

提出LAR-MoE,通过潜在空间对齐路由解决机器人模仿学习中专家网络技能分解难题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 混合专家网络 潜在空间对齐 机器人操作 无监督学习

📋 核心要点

  1. 模仿学习中,模型难以处理异构任务,倾向于平均不同行为模式,导致性能下降。
  2. LAR-MoE通过两阶段框架,解耦无监督技能发现和策略学习,利用潜在空间对齐路由。
  3. 实验表明,LAR-MoE在LIBERO基准上达到95.2%的成功率,并在外科任务中实现零样本迁移。

📝 摘要(中文)

模仿学习使机器人能够从演示中学习操作技能,但将策略部署到具有异构动态的任务中仍然具有挑战性,因为模型倾向于平均演示中存在的不同行为模式。混合专家(MoE)架构通过激活专门的子网络来解决这个问题,但需要有意义的技能分解来进行专家路由。我们引入了潜在对齐路由混合专家(LAR-MoE),这是一个两阶段框架,将无监督技能发现与策略学习分离。在预训练中,我们通过学生-教师协同训练学习观察和未来动作之间的联合潜在表示。在后训练阶段,专家路由被正则化以遵循学习到的潜在空间的结构,防止专家崩溃,同时保持参数效率。我们在模拟和硬件上评估了LAR-MoE。在LIBERO基准测试中,我们的方法以1.5亿个参数实现了95.2%的平均成功率。在外科肠道抓取和牵开任务中,LAR-MoE匹配了监督MoE基线,而无需任何阶段注释,并零样本迁移到离体猪组织。我们的研究结果表明,潜在对齐路由为监督技能分解提供了一种原则性的替代方案,从而能够从无标签的演示中进行结构化的专家专业化。

🔬 方法详解

问题定义:在机器人模仿学习中,如何让模型能够处理具有异构动态的复杂任务,避免简单地平均不同行为模式?现有的混合专家(MoE)方法依赖于预定义的技能分解,需要人工标注或领域知识,这限制了其泛化能力和易用性。专家网络容易发生专家崩溃,导致参数效率降低。

核心思路:LAR-MoE的核心思路是将技能发现和策略学习解耦。首先,通过无监督学习的方式发现潜在的技能表示,然后利用这个潜在空间来指导专家网络的路由,从而避免专家崩溃,并实现结构化的专家专业化。这种方法避免了对人工标注的依赖,提高了模型的泛化能力。

技术框架:LAR-MoE包含两个主要阶段:预训练阶段和后训练阶段。在预训练阶段,使用学生-教师协同训练学习观察和未来动作之间的联合潜在表示。学生网络学习预测教师网络生成的潜在表示,从而提取有用的技能信息。在后训练阶段,专家路由被正则化,以遵循学习到的潜在空间的结构。具体来说,使用一个路由网络,该网络根据输入的状态信息,输出每个专家的权重。这个权重被正则化,使其与潜在空间中状态的表示相似。

关键创新:LAR-MoE的关键创新在于使用潜在空间对齐路由来指导专家网络的学习。与传统的MoE方法不同,LAR-MoE不需要预定义的技能分解,而是通过无监督学习的方式自动发现技能。此外,通过正则化专家路由,LAR-MoE可以避免专家崩溃,并实现结构化的专家专业化。

关键设计:在预训练阶段,使用对比损失函数来学习潜在表示。在后训练阶段,使用KL散度来正则化专家路由,使其与潜在空间中状态的表示相似。路由网络的结构可以根据具体的任务进行调整。论文中使用了多层感知机(MLP)作为路由网络。参数设置方面,需要仔细调整学生-教师协同训练的学习率和正则化系数,以获得良好的潜在表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LAR-MoE在LIBERO基准测试中取得了显著成果,平均成功率达到95.2%,参数量为1.5亿。在外科肠道抓取和牵开任务中,LAR-MoE在没有阶段注释的情况下,性能与监督MoE基线相当,并成功零样本迁移到离体猪组织,验证了其泛化能力。

🎯 应用场景

LAR-MoE可应用于各种机器人模仿学习任务,尤其适用于需要处理复杂、异构动态的任务,例如外科手术机器人、装配机器人和自动驾驶。该方法无需人工标注,降低了数据收集成本,并提高了模型的泛化能力,有望推动机器人技术在更广泛领域的应用。

📄 摘要(原文)

Imitation learning enables robots to acquire manipulation skills from demonstrations, yet deploying a policy across tasks with heterogeneous dynamics remains challenging, as models tend to average over distinct behavioral modes present in the demonstrations. Mixture-of-Experts (MoE) architectures address this by activating specialized subnetworks, but requires meaningful skill decompositions for expert routing. We introduce Latent-Aligned Routing for Mixture of Experts (LAR-MoE), a two-stage framework that decouples unsupervised skill discovery from policy learning. In pre-training, we learn a joint latent representation between observations and future actions through student-teacher co-training. In a post-training stage, the expert routing is regularized to follow the structure of the learned latent space, preventing expert collapse while maintaining parameter efficiency. We evaluate LAR-MoE in simulation and on hardware. On the LIBERO benchmark, our method achieves a 95.2% average success rate with 150M parameters. On a surgical bowel grasping and retraction task, LAR-MoE matches a supervised MoE baseline without requiring any phase annotations, and transfers zero-shot to ex vivo porcine tissue. Our findings suggest that latent-aligned routing provides a principled alternative to supervised skill decomposition, enabling structured expert specialization from unlabeled demonstrations.