Primary-Fine Decoupling for Action Generation in Robotic Imitation
作者: Xiaohan Lei, Min Wang, Wengang Zhou, Xingyu Lu, Houqiang Li
分类: cs.RO, cs.LG
发布日期: 2026-02-25
备注: The Fourteenth International Conference on Learning Representations (ICLR), 2026
💡 一句话要点
提出主次解耦动作生成框架,解决机器人模仿学习中多模态动作序列生成问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人模仿学习 多模态动作生成 动作解耦 MeanFlow 强化学习
📋 核心要点
- 现有模仿学习方法在处理机器人动作序列的多模态问题时,要么损失细粒度信息,要么模式转换不稳定。
- PF-DAG框架通过两阶段解耦,首先选择粗略的离散模式,再生成细粒度的连续动作,保证动作一致性和高保真度。
- 实验结果表明,PF-DAG在多个基准测试中优于现有方法,并在真实机器人任务中表现出良好的泛化能力。
📝 摘要(中文)
机器人操作动作序列中的多模态分布为模仿学习带来了严峻挑战。为了解决这个问题,现有方法通常将动作空间建模为离散的token集合或连续的隐变量分布。然而,这两种方法都存在权衡:一些方法将动作离散化为token,因此丢失了细粒度的动作变化;而另一些方法在单阶段生成连续动作时,容易产生不稳定的模式转换。为了解决这些局限性,我们提出了主次解耦动作生成(PF-DAG)框架,这是一个两阶段框架,将粗略的动作一致性与细粒度的变化解耦。首先,我们将动作块压缩成一小组离散模式,使得轻量级策略能够选择一致的粗略模式,并避免模式跳变。其次,学习一个模式条件MeanFlow策略来生成高保真的连续动作。理论上,我们证明了PF-DAG的两阶段设计比单阶段生成策略实现了严格更低的MSE界。在Adroit、DexArt和MetaWorld基准测试的56个任务中,PF-DAG优于最先进的基线方法。它进一步推广到真实世界的触觉灵巧操作任务。我们的工作表明,显式的模式级解耦能够实现鲁棒的多模态建模和机器人操作的反应式闭环控制。
🔬 方法详解
问题定义:现有机器人模仿学习方法在处理多模态动作序列时面临挑战。离散化方法损失了动作的细粒度变化,而单阶段连续动作生成方法容易产生不稳定的模式转换,导致控制效果不佳。因此,需要一种既能捕捉动作序列的整体结构,又能保留动作细节的方法。
核心思路:PF-DAG的核心思路是将动作生成过程解耦为两个阶段:首先,选择一个粗略的、离散的动作模式,保证动作序列的整体一致性;然后,在选定的模式下,生成细粒度的连续动作,保留动作的细节变化。这种解耦的设计能够避免模式跳变,并提高动作生成的稳定性。
技术框架:PF-DAG框架包含两个主要阶段:1) 主模式选择阶段:将动作块压缩成一组离散模式,使用轻量级策略选择一致的粗略模式。2) 精细动作生成阶段:基于选定的模式,使用模式条件MeanFlow策略生成高保真的连续动作。整体流程是,首先使用编码器将观察输入编码成隐向量,然后使用主模式选择策略选择一个离散模式,最后使用模式条件MeanFlow解码器生成连续动作。
关键创新:PF-DAG的关键创新在于将动作生成过程解耦为粗略模式选择和精细动作生成两个阶段。这种解耦的设计能够有效地解决多模态动作序列生成中的模式跳变问题,并提高动作生成的稳定性和精度。与现有方法相比,PF-DAG能够更好地捕捉动作序列的整体结构和细节变化。
关键设计:在主模式选择阶段,使用聚类算法(如K-means)将动作块聚类成一组离散模式。在精细动作生成阶段,使用MeanFlow作为生成模型,MeanFlow是一种基于归一化流的模型,能够学习复杂的数据分布。损失函数包括主模式选择的交叉熵损失和精细动作生成的MSE损失。网络结构包括编码器、主模式选择策略网络和模式条件MeanFlow解码器。
🖼️ 关键图片
📊 实验亮点
PF-DAG在Adroit、DexArt和MetaWorld等多个基准测试中取得了显著的性能提升,超越了现有的最先进方法。例如,在MetaWorld的56个任务中,PF-DAG的成功率显著高于其他基线方法。此外,PF-DAG还在真实世界的触觉灵巧操作任务中表现出良好的泛化能力,证明了其在实际应用中的潜力。
🎯 应用场景
PF-DAG框架可应用于各种机器人操作任务,例如物体抓取、装配、操作工具等。该框架能够提高机器人在复杂环境中的操作能力,使其能够更好地适应不同的任务需求。此外,该框架还可以应用于虚拟现实和游戏等领域,生成更加逼真的角色动作。
📄 摘要(原文)
Multi-modal distribution in robotic manipulation action sequences poses critical challenges for imitation learning. To this end, existing approaches often model the action space as either a discrete set of tokens or a continuous, latent-variable distribution. However, both approaches present trade-offs: some methods discretize actions into tokens and therefore lose fine-grained action variations, while others generate continuous actions in a single stage tend to produce unstable mode transitions. To address these limitations, we propose Primary-Fine Decoupling for Action Generation (PF-DAG), a two-stage framework that decouples coarse action consistency from fine-grained variations. First, we compress action chunks into a small set of discrete modes, enabling a lightweight policy to select consistent coarse modes and avoid mode bouncing. Second, a mode conditioned MeanFlow policy is learned to generate high-fidelity continuous actions. Theoretically, we prove PF-DAG's two-stage design achieves a strictly lower MSE bound than single-stage generative policies. Empirically, PF-DAG outperforms state-of-the-art baselines across 56 tasks from Adroit, DexArt, and MetaWorld benchmarks. It further generalizes to real-world tactile dexterous manipulation tasks. Our work demonstrates that explicit mode-level decoupling enables both robust multi-modal modeling and reactive closed-loop control for robotic manipulation.