MARS Policy: Multimodality Only When It Matters

📄 arXiv: 2605.29766v1 📥 PDF

作者: Jindou Jia, Tuo An, Yuxuan Hu, Gen Li, Jingliang Li, Bohan Hou, Xiangyu Chen, Jiaqi Bai, Bofan Lyu, Jianfei Yang

分类: cs.RO

发布日期: 2026-05-28

备注: 13 figures, 17 pages


💡 一句话要点

提出MARS策略,自适应地在机器人操作中引入多模态,提升效率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 模仿学习 多模态学习 自适应策略 强化学习

📋 核心要点

  1. 现有机器人模仿学习方法,特别是多模态生成策略,训练复杂且推理效率低,因为它们依赖于全局的随机噪声注入。
  2. MARS策略的核心思想是仅在任务需要行为多样性的阶段自适应地引入随机性,而在单模态阶段则采用高效的确定性学习。
  3. 实验结果表明,MARS在模拟和真实世界任务中都表现出强大的多模态表达能力和高效率,显著提升了成功率并降低了推理延迟。

📝 摘要(中文)

模仿学习已成为解决复杂机器人操作任务的基石。特别是,多模态学习使机器人能够捕获多样但有效的行为模式,推动了生成策略作为机器人学习中的主导范式的快速出现。然而,实现这种多模态通常依赖于随机噪声初始化和迭代去噪过程,导致巨大的训练复杂性和低推理效率。同时,并非机器人任务的所有阶段都固有地需要行为多样性。受此启发,我们提出了模态自适应机器人采样(MARS)策略,该策略仅在真正有益时才自适应地调用定制的随机性,而在单模态阶段则恢复为高效的确定性学习。换句话说,仅在适当的时间注入适当量的噪声。通过选择性地激活多模态生成,MARS策略弥合了生成策略的多模态能力与确定性模型卓越的训练和推理效率之间的差距。在8个模拟和4个真实世界任务中的经验研究表明,MARS表现出强大的多模态表达能力和高效率,在真实世界测试中成功率提高了16.67%,推理延迟降低了83.20%。出乎意料的是,MARS在近确定性任务中的训练效率也超过了确定性策略,因为它能更有效地建模细微的动作多样性。

🔬 方法详解

问题定义:现有基于模仿学习的机器人操作方法,尤其是多模态生成策略,为了捕捉行为的多样性,通常采用全局的随机噪声注入和迭代去噪过程。这导致了训练过程的复杂性增加,以及推理效率的降低。然而,并非所有机器人任务的阶段都需要行为的多样性,全局应用多模态方法存在冗余和浪费。

核心思路:MARS策略的核心思路是根据任务的阶段性特点,自适应地调整策略的模态。具体来说,在需要行为多样性的阶段,引入随机性以生成多模态行为;而在只需要单一行为模式的阶段,则采用确定性策略,以提高效率。这种自适应的模态选择,使得MARS策略能够在保证多模态表达能力的同时,兼顾训练和推理的效率。

技术框架:MARS策略的整体框架包含两个主要部分:模态选择器和动作生成器。模态选择器负责判断当前任务阶段是否需要多模态行为,并输出一个模态选择信号。动作生成器则根据模态选择信号,选择性地生成多模态或确定性动作。当模态选择信号指示需要多模态行为时,动作生成器会引入随机噪声,生成多样化的动作;否则,动作生成器会生成确定性的动作。

关键创新:MARS策略的关键创新在于其自适应的模态选择机制。与传统的全局应用多模态方法不同,MARS策略能够根据任务的实际需求,动态地调整策略的模态。这种自适应性使得MARS策略能够在保证多模态表达能力的同时,避免了不必要的计算开销,提高了训练和推理的效率。

关键设计:模态选择器通常采用一个神经网络来实现,其输入是当前的状态信息,输出是模态选择信号。模态选择器的训练目标是最大化任务的成功率,同时最小化多模态行为的使用频率。动作生成器可以采用各种现有的模仿学习算法,例如高斯混合模型或变分自编码器。损失函数通常包括模仿学习损失和正则化损失,用于约束动作的平滑性和多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在8个模拟任务和4个真实世界任务中,MARS策略都取得了显著的性能提升。在真实世界测试中,MARS策略的成功率提高了16.67%,推理延迟降低了83.20%。此外,MARS策略在近确定性任务中的训练效率也超过了确定性策略,表明其能够更有效地建模细微的动作多样性。

🎯 应用场景

MARS策略适用于各种需要机器人进行复杂操作的任务,例如装配、抓取、导航等。该策略能够提高机器人在复杂环境中的适应性和鲁棒性,降低部署成本,并加速机器人技术的商业化进程。未来,MARS策略有望应用于自动驾驶、医疗机器人等领域,实现更智能、更高效的机器人系统。

📄 摘要(原文)

Imitation learning has become a cornerstone for solving complex robotic manipulation tasks. In particular, multimodality, which enables robots to capture diverse yet valid behavioral patterns, has driven the rapid emergence of generative policies as a dominant paradigm in robot learning. However, achieving such multimodality typically relies on stochastic noise initialization and iterative denoising procedures, resulting in substantial training complexity and low inference efficiency. Meanwhile, not all phases of a robotic task inherently require behavioral diversity. Motivated by this insight, we propose the Modality-Adaptive Robot Sampling (MARS) policy, which adaptively invokes tailored stochasticity only when it is truly beneficial, while reverting to an efficient deterministic learning during single-modal phases. In other words, the proper amount of noise is injected only at the proper time. By selectively activating multimodal generation, MARS policy bridges the gap between the multimodal capability of generative policies and the superior training and inference efficiency of deterministic models. Empirical studies across 8 simulated and 4 real-world tasks demonstrate that MARS exhibits robust multimodal expressivity and high efficiency, with a 16.67% success rate improvement and an 83.20% inference latency reduction in real-world tests. Counterintuitively, MARS also outpaces deterministic policies in training efficiency on near-deterministic tasks by more effectively modeling nuanced action diversity.