Masked Generative Policy for Robotic Control

📄 arXiv: 2512.09101v2 📥 PDF

作者: Lipeng Zhuang, Shiyu Fan, Florent P. Audonnet, Yingdong Ru, Edmond S. L. Ho, Gerardo Aragon Camarasa, Paul Henderson

分类: cs.RO, cs.AI

发布日期: 2025-12-09 (更新: 2026-01-26)


💡 一句话要点

提出掩码生成策略MGP,用于提升机器人控制任务的模仿学习性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人控制 模仿学习 掩码Transformer 生成策略 非马尔可夫任务

📋 核心要点

  1. 现有机器人模仿学习方法在复杂和非马尔可夫任务中面临挑战,难以实现全局连贯的预测和鲁棒的自适应执行。
  2. MGP通过将动作离散化为token,并利用掩码Transformer并行生成和细化动作序列,实现高效且全局一致的策略学习。
  3. 实验表明,MGP在多个机器人操作任务上显著提升了成功率,并大幅降低了推理时间,尤其在动态和非马尔可夫环境中表现出色。

📝 摘要(中文)

本文提出了一种新的视觉运动模仿学习框架——掩码生成策略(MGP)。MGP将动作表示为离散token,并训练一个条件掩码Transformer,该Transformer并行生成token,然后快速细化置信度低的token。此外,本文还提出了两种新的采样范式:MGP-Short,它对马尔可夫任务执行基于分数的并行掩码生成和细化;MGP-Long,它在单次传递中预测完整轨迹,并根据新的观察动态细化置信度低的动作token。凭借全局连贯的预测和强大的自适应执行能力,MGP-Long能够在现有方法难以处理的复杂和非马尔可夫任务上实现可靠的控制。在Meta-World和LIBERO基准测试中,对150个机器人操作任务的广泛评估表明,与最先进的扩散和自回归策略相比,MGP实现了快速推理和更高的成功率。具体而言,MGP在150个任务中的平均成功率提高了9%,同时将每个序列的推理时间缩短了高达35倍。它还在动态和缺失观测环境中将平均成功率提高了60%,并解决了其他最先进方法失败的两个非马尔可夫场景。

🔬 方法详解

问题定义:现有机器人模仿学习方法,如自回归模型和扩散模型,在处理复杂和非马尔可夫任务时存在局限性。自回归模型推理速度慢,难以并行化;扩散模型训练复杂,且在长序列预测中可能出现不一致性。这些方法难以在动态环境和观测缺失的情况下保持鲁棒性。

核心思路:MGP的核心思路是将动作空间离散化为token,并利用Transformer的并行处理能力,通过掩码机制同时预测多个动作token。通过迭代地掩码和细化置信度低的token,MGP能够快速生成高质量的动作序列,并适应环境变化。这种方法结合了生成模型的全局一致性和判别模型的快速推理能力。

技术框架:MGP的整体框架包括以下几个主要模块:1) 离散化动作空间:将连续的动作空间划分为离散的token。2) 条件掩码Transformer:以环境观测作为条件,使用掩码Transformer并行预测动作token。3) 置信度评估:评估每个动作token的置信度。4) 迭代细化:掩码置信度低的token,并重新预测,直到所有token的置信度都达到阈值。MGP根据任务类型分为MGP-Short和MGP-Long两种变体,分别适用于马尔可夫任务和非马尔可夫任务。

关键创新:MGP的关键创新在于其并行生成和迭代细化的机制。与自回归模型串行生成动作不同,MGP可以同时预测多个动作,从而显著提高推理速度。与扩散模型不同,MGP通过置信度评估和迭代细化,能够更好地控制生成过程,避免出现不一致性。此外,MGP-Long通过预测完整轨迹并动态细化,能够更好地处理非马尔可夫任务。

关键设计:MGP的关键设计包括:1) 动作空间离散化的方法:使用k-means等聚类算法将连续动作空间划分为离散token。2) 掩码Transformer的网络结构:使用标准的Transformer结构,并添加掩码机制,允许并行预测和细化token。3) 置信度评估函数:使用softmax输出的概率值作为置信度指标。4) 损失函数:使用交叉熵损失函数训练Transformer,并使用正则化项鼓励生成高质量的动作序列。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MGP在Meta-World和LIBERO基准测试的150个机器人操作任务上取得了显著成果。与最先进的扩散和自回归策略相比,MGP的平均成功率提高了9%,同时将每个序列的推理时间缩短了高达35倍。在动态和缺失观测环境中,MGP的平均成功率提高了60%,并成功解决了其他方法失败的两个非马尔可夫场景。

🎯 应用场景

MGP具有广泛的应用前景,可应用于各种机器人控制任务,如物体抓取、装配、导航等。尤其在需要快速响应和适应动态环境的场景中,MGP的优势更加明显。此外,MGP还可以应用于虚拟现实、游戏等领域,生成逼真且可控的角色动作。

📄 摘要(原文)

We present Masked Generative Policy (MGP), a novel framework for visuomotor imitation learning. We represent actions as discrete tokens, and train a conditional masked transformer that generates tokens in parallel and then rapidly refines only low-confidence tokens. We further propose two new sampling paradigms: MGP-Short, which performs parallel masked generation with score-based refinement for Markovian tasks, and MGP-Long, which predicts full trajectories in a single pass and dynamically refines low-confidence action tokens based on new observations. With globally coherent prediction and robust adaptive execution capabilities, MGP-Long enables reliable control on complex and non-Markovian tasks that prior methods struggle with. Extensive evaluations on 150 robotic manipulation tasks spanning the Meta-World and LIBERO benchmarks show that MGP achieves both rapid inference and superior success rates compared to state-of-the-art diffusion and autoregressive policies. Specifically, MGP increases the average success rate by 9% across 150 tasks while cutting per-sequence inference time by up to 35x. It further improves the average success rate by 60% in dynamic and missing-observation environments, and solves two non-Markovian scenarios where other state-of-the-art methods fail.