ATG-MoE: Autoregressive trajectory generation with mixture-of-experts for assembly skill learning

📄 arXiv: 2603.19029v1 📥 PDF

作者: Weihang Huang, Chaoran Zhang, Xiaoxin Deng, Hao Zhou, Zhaobo Xu, Shubo Cui, Long Zeng

分类: cs.RO

发布日期: 2026-03-19

备注: 32 pages, 13 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出ATG-MoE,用于解决机器人装配技能学习中的泛化性与多技能集成问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人装配 技能学习 多模态融合 自回归模型 混合专家模型

📋 核心要点

  1. 传统机器人编程繁琐且缺乏灵活性,现有学习方法在泛化性和多技能集成方面存在局限。
  2. ATG-MoE通过多模态融合、自回归建模和混合专家架构,实现了端到端的轨迹生成。
  3. 实验表明,ATG-MoE在仿真和真实环境中均表现出色,具有良好的泛化性和多技能集成能力。

📝 摘要(中文)

本文提出了一种名为ATG-MoE的端到端自回归轨迹生成方法,用于从演示中学习装配技能。该方法旨在解决传统机器人编程劳动密集、缺乏灵活性,以及现有基于学习的装配方法在位置泛化性弱、多阶段设计复杂和多技能集成能力有限等问题。ATG-MoE建立了从多模态输入(包括RGB-D观测、自然语言指令和机器人自身感知)到操作轨迹的闭环映射。它集成了用于场景和任务理解的多模态特征融合、用于时间连贯轨迹生成的自回归序列建模,以及用于统一多技能学习的混合专家架构。与分离视觉感知和控制或独立训练不同技能的传统方法相比,ATG-MoE直接将视觉信息融入轨迹生成,并支持在单个模型中高效地集成多技能。我们在一个减压阀装配任务的八个代表性装配技能上训练和评估了该方法。实验结果表明,ATG-MoE在仿真中取得了强大的整体性能,平均抓取成功率为96.3%,平均整体成功率为91.8%,同时展示了强大的泛化能力和有效的多技能集成。真实世界的实验进一步验证了其在多技能工业装配中的实用性。

🔬 方法详解

问题定义:论文旨在解决机器人装配技能学习中,现有方法泛化能力弱、多阶段设计复杂以及多技能集成能力有限的问题。传统机器人编程依赖人工,难以适应快速变化的任务需求。现有的基于学习的方法通常将视觉感知和控制分离,或者独立训练不同的技能,导致系统复杂且难以泛化到新的场景和任务。

核心思路:论文的核心思路是建立一个端到端的模型,直接将多模态输入(RGB-D图像、自然语言指令、机器人自身状态)映射到操作轨迹。通过将视觉信息直接融入轨迹生成过程,并利用混合专家模型实现多技能的统一学习,从而提高模型的泛化能力和多技能集成效率。

技术框架:ATG-MoE的整体架构包含以下几个主要模块:1) 多模态特征融合模块,用于提取RGB-D图像、自然语言指令和机器人自身状态的特征;2) 自回归序列建模模块,用于生成时间连贯的轨迹;3) 混合专家(MoE)模块,用于实现多技能的统一学习。整个流程是从多模态输入开始,经过特征提取和融合,然后通过自回归模型逐步生成轨迹,最后由MoE模块选择合适的专家来执行相应的技能。

关键创新:ATG-MoE的关键创新在于将视觉信息直接融入轨迹生成过程,并采用混合专家模型实现多技能的统一学习。与传统方法将视觉感知和控制分离不同,ATG-MoE通过端到端的方式,直接从视觉输入生成轨迹,从而提高了模型的泛化能力。同时,MoE模块允许模型学习多个不同的技能,并在运行时根据输入选择合适的技能,从而实现了高效的多技能集成。

关键设计:在多模态特征融合方面,论文可能采用了注意力机制或其他融合策略,以更好地整合不同模态的信息。在自回归序列建模方面,可能采用了Transformer或其他序列模型,以生成时间连贯的轨迹。在MoE模块方面,需要设计合适的门控网络,以根据输入选择合适的专家。损失函数可能包括轨迹预测误差、抓取成功率等指标,以优化模型的性能。

📊 实验亮点

ATG-MoE在仿真环境中对减压阀的八个装配技能进行了评估,平均抓取成功率达到96.3%,平均整体成功率达到91.8%。此外,实验还验证了该方法在真实世界中的可行性,表明其具有良好的泛化能力和多技能集成能力。这些结果表明,ATG-MoE在机器人装配技能学习方面具有显著的优势。

🎯 应用场景

该研究成果可应用于柔性制造、智能装配等领域,能够帮助机器人系统更好地适应不断变化的任务、对象和环境。通过学习不同的装配技能,机器人可以完成更复杂的任务,提高生产效率和自动化水平。未来,该技术有望应用于更广泛的工业场景,例如汽车制造、电子产品组装等。

📄 摘要(原文)

Flexible manufacturing requires robot systems that can adapt to constantly changing tasks, objects, and environments. However, traditional robot programming is labor-intensive and inflexible, while existing learning-based assembly methods often suffer from weak positional generalization, complex multi-stage designs, and limited multi-skill integration capability. To address these issues, this paper proposes ATG-MoE, an end-to-end autoregressive trajectory generation method with mixture of experts for assembly skill learning from demonstration. The proposed method establishes a closed-loop mapping from multi-modal inputs, including RGB-D observations, natural language instructions, and robot proprioception to manipulation trajectories. It integrates multi-modal feature fusion for scene and task understanding, autoregressive sequence modeling for temporally coherent trajectory generation, and a mixture-of-experts architecture for unified multi-skill learning. In contrast to conventional methods that separate visual perception and control or train different skills independently, ATG-MoE directly incorporates visual information into trajectory generation and supports efficient multi-skill integration within a single model. We train and evaluate the proposed method on eight representative assembly skills from a pressure-reducing valve assembly task. Experimental results show that ATG-MoE achieves strong overall performance in simulation, with an average grasp success rate of 96.3% and an average overall success rate of 91.8%, while also demonstrating strong generalization and effective multi-skill integration. Real-world experiments further verify its practicality for multi-skill industrial assembly. The project page can be found at https://hwh23.github.io/ATG-MoE