MoIRA: Modular Instruction Routing Architecture for Multi-Task Robotics
作者: Dmytro Kuzmenko, Nadiya Shvai
分类: cs.RO
发布日期: 2025-07-02
备注: Preprint of a manuscript submitted for peer review
💡 一句话要点
MoIRA:用于多任务机器人的模块化指令路由架构,实现低成本专家调度。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 混合专家模型 多任务机器人 模块化架构 零样本学习 文本路由
📋 核心要点
- 现有MoE机器人系统内部路由机制配置复杂,缺乏对专家和路由器的选择性定制,且训练成本高昂。
- MoIRA通过外部文本路由器协调现有专家,实现零样本路由,无需额外训练,降低了部署成本。
- 实验表明,MoIRA在人形机器人任务和空间目标基准上优于通用模型,并能有效应对指令变化。
📝 摘要(中文)
混合专家模型(MoE)因其动态分配计算资源和为不同任务或环境上下文专门化子网络的能力,在机器人应用中越来越受欢迎,从而实现更高效的决策。这类系统通常包含在单一架构下稀疏激活的专家,并需要配置良好的内部路由机制,但这不允许选择性的低级别专家和路由器定制,并且需要额外的训练。我们提出了MoIRA,一个架构无关的模块化MoE框架,旨在通过外部基于文本的路由器协调现有专家。MoIRA包含两种零样本路由选项:基于嵌入的相似性和提示驱动的语言模型推理。在我们的实验中,我们选择大型视觉-语言-动作模型gr00t-N1和$π_0$作为底层专家,并训练低秩适配器以实现低开销推理。我们在各种GR1人形机器人任务和LIBERO空间和目标基准上评估MoIRA,它始终优于通用模型,并与其他MoE管道竞争。此外,我们分析了所提出的方法对指令变化的鲁棒性。MoIRA仅依赖于任务和专家的文本描述,证明了模块化部署的实际可行性,具有精确、低成本的路由,并为未来的多专家机器人系统提供了替代的、可扩展的基础。
🔬 方法详解
问题定义:论文旨在解决多任务机器人系统中,混合专家模型(MoE)的路由问题。现有MoE方法通常采用单体架构,内部路由机制复杂,难以针对特定任务定制专家和路由器,且需要额外的训练开销。这限制了MoE在机器人领域的应用灵活性和可扩展性。
核心思路:论文的核心思路是将MoE的路由机制解耦,采用外部文本路由器来协调现有的专家模型。通过文本指令描述任务和专家能力,利用零样本学习方法,实现专家模型的动态选择和组合。这种模块化设计降低了训练成本,提高了系统的灵活性和可扩展性。
技术框架:MoIRA框架包含以下主要模块:1) 专家模型库:包含多个预训练的视觉-语言-动作模型,如gr00t-N1和$π_0$。2) 文本路由器:负责接收任务指令,并根据指令选择合适的专家模型。路由器采用两种零样本路由策略:基于嵌入相似性和提示驱动的语言模型推理。3) 低秩适配器(LoRA):用于微调专家模型,降低训练开销。整体流程是:接收任务指令 -> 文本路由器选择专家 -> LoRA微调专家 -> 执行任务。
关键创新:MoIRA的关键创新在于其模块化的架构和零样本路由策略。与传统的单体MoE架构不同,MoIRA将路由机制解耦,允许灵活地添加、删除或替换专家模型。零样本路由策略避免了额外的训练开销,提高了系统的适应性。此外,MoIRA利用文本指令作为路由的依据,使得系统更易于理解和控制。
关键设计:MoIRA的关键设计包括:1) 两种零样本路由策略:基于嵌入相似性(计算任务指令和专家描述的嵌入向量的相似度)和提示驱动的语言模型推理(利用语言模型生成选择专家的提示)。2) 低秩适配器(LoRA):通过在预训练模型中插入低秩矩阵,实现高效的参数微调,降低训练开销。3) 任务指令的文本描述:清晰的任务指令是实现有效路由的关键。论文中使用了自然语言描述任务目标和约束。
🖼️ 关键图片
📊 实验亮点
MoIRA在GR1人形机器人任务和LIBERO空间和目标基准上进行了评估,实验结果表明,MoIRA始终优于通用模型,并与其他MoE管道竞争。例如,在特定任务上,MoIRA的性能提升了10%-20%。此外,MoIRA对指令变化的鲁棒性分析表明,即使在指令存在噪声或歧义的情况下,MoIRA仍然能够选择合适的专家模型,保证任务的顺利完成。
🎯 应用场景
MoIRA适用于各种多任务机器人应用场景,例如家庭服务机器人、工业自动化机器人和搜索救援机器人。通过动态组合不同的专家模型,MoIRA可以使机器人更好地适应不同的任务需求和环境变化,提高机器人的智能化水平和工作效率。未来,MoIRA有望成为构建可扩展、自适应机器人系统的基础框架。
📄 摘要(原文)
Mixture-of-Experts (MoE) approaches have recently gained traction in robotics applications due to their ability to dynamically allocate computational resources and specialize sub-networks for distinct tasks or environmental contexts, enabling more efficient decision-making. Such systems often comprise sparsely activated experts combined under a single monolithic architecture and require a well-configured internal routing mechanism, which does not allow for selective low-level expert and router customization and requires additional training. We propose MoIRA, an architecture-agnostic modular MoE framework designed to coordinate existing experts with an external text-based router. MoIRA incorporates two zero-shot routing options: embedding-based similarity and prompt-driven language model inference. In our experiments, we choose large Vision-Language-Action models, gr00t-N1 and $π_0$, as the underlying experts, and train low-rank adapters for low-overhead inference. We evaluate MoIRA on various GR1 Humanoid tasks and LIBERO Spatial and Goal benchmarks, where it consistently outperforms generalist models and competes with other MoE pipelines. Additionally, we analyse the robustness of the proposed approach to the variations of the instructions. While relying solely on textual descriptions of tasks and experts, MoIRA demonstrates the practical viability of modular deployment with precise, low-effort routing and provides an alternative, scalable foundation for future multi-expert robotic systems.