From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation
作者: Yajie Li, Bozhou Zhang, Chun Gu, Zipei Ma, Jiahui Zhang, Jiankang Deng, Xiatian Zhu, Li Zhang
分类: cs.RO, cs.CV
发布日期: 2026-05-12
备注: ICML 2026
💡 一句话要点
提出MoLA:利用混合潜在动作弥合视频预测与机器人操作之间的鸿沟
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 机器人操作 视频预测 逆动力学模型 潜在动作 多模态学习
📋 核心要点
- 现有方法在利用视频生成模型进行机器人操作时,存在视觉真实感与控制相关性不匹配的问题,导致控制不稳定。
- MoLA的核心思想是利用预训练的逆动力学模型,从生成的视频中推断出潜在动作的混合,从而提供结构化和物理基础的动作表示。
- 实验结果表明,MoLA在模拟和真实世界的机器人操作任务中,均能显著提升任务成功率、时间一致性和泛化能力。
📝 摘要(中文)
视频生成模型为机器人操作提供了一种有前景的想象机制,通过预测长时程的未来观测来实现。然而,如何有效地利用这些想象的未来来执行动作仍然具有挑战性。现有方法要么将策略建立在预测帧之上,要么直接将生成的视频解码为动作,这两种方法都存在视觉真实感和控制相关性之间的不匹配。因此,预测的观测结果强调感知保真度,而不是状态转换中以动作为中心的因果关系,导致间接和不稳定的控制。为了解决这一差距,我们提出了MoLA(混合潜在动作),一种面向控制的接口,将想象的未来视频转换为可执行的表示。MoLA没有将预测帧直接传递给策略,而是利用预训练的逆动力学模型的混合来推断生成的可视转换所隐含的潜在动作的混合。这些模态感知的逆动力学模型捕获互补的语义、深度和光流线索,提供了一种结构化和物理基础的动作表示,从而桥接了视频想象和策略执行。我们在模拟基准(LIBERO、CALVIN和LIBERO-Plus)和真实世界的机器人操作任务上评估了我们的方法,在任务成功率、时间一致性和泛化方面取得了持续的提升。
🔬 方法详解
问题定义:现有基于视频预测的机器人操作方法,难以有效利用预测的未来视频帧来指导动作执行。直接将预测帧输入策略网络,或将视频解码为动作,都忽略了视觉真实感和控制相关性之间的差异。预测的视频帧侧重于感知细节,而非动作对状态转移的影响,导致控制过程间接且不稳定。
核心思路:MoLA的核心思路是将想象的未来视频转换为可执行的动作表示。通过预训练的逆动力学模型,从生成的视频中推断出潜在动作的混合。这些逆动力学模型能够感知多种模态信息(语义、深度、光流),从而提供更结构化和物理基础的动作表示。这种表示方式更关注动作本身,而非视觉细节,从而更好地指导策略执行。
技术框架:MoLA的整体框架包括视频生成模型、混合潜在动作推断模块和策略网络。首先,视频生成模型预测未来视频帧。然后,MoLA利用预训练的逆动力学模型,从预测的视频帧中推断出潜在动作的混合。这些潜在动作被输入到策略网络中,生成最终的机器人控制指令。逆动力学模型针对不同的模态信息进行训练,并采用混合模型进行融合。
关键创新:MoLA的关键创新在于提出了“混合潜在动作”的概念,并将其作为视频预测和策略执行之间的桥梁。与直接使用预测帧或解码视频不同,MoLA通过逆动力学模型提取动作相关的潜在信息,从而更好地指导机器人操作。此外,MoLA还采用了模态感知的逆动力学模型,能够利用多种视觉信息来提高动作推断的准确性。
关键设计:MoLA的关键设计包括:1) 使用预训练的逆动力学模型,避免从头开始训练,提高效率;2) 采用混合模型来融合不同模态的逆动力学模型,提高鲁棒性;3) 设计损失函数,鼓励逆动力学模型学习到与动作相关的潜在表示。具体来说,逆动力学模型可以使用不同的网络结构,如卷积神经网络或Transformer网络。混合模型的权重可以通过注意力机制或门控机制进行学习。
🖼️ 关键图片
📊 实验亮点
MoLA在LIBERO、CALVIN和LIBERO-Plus等模拟基准测试中,以及真实世界的机器人操作任务中,均取得了显著的性能提升。与现有方法相比,MoLA在任务成功率、时间一致性和泛化能力方面均有明显优势。例如,在某些任务中,MoLA的任务成功率提高了10%-20%。这些实验结果表明,MoLA能够有效地利用视频预测信息来指导机器人操作。
🎯 应用场景
MoLA技术可应用于各种机器人操作任务,例如物体抓取、装配、导航等。该方法能够提高机器人在复杂环境中的适应性和鲁棒性,使其能够更好地完成各种任务。此外,MoLA还可以应用于虚拟现实和增强现实等领域,为用户提供更自然和直观的交互体验。未来,MoLA有望成为机器人操作领域的重要技术手段。
📄 摘要(原文)
Video generation models offer a promising imagination mechanism for robot manipulation by predicting long-horizon future observations, but effectively exploiting these imagined futures for action execution remains challenging. Existing approaches either condition policies on predicted frames or directly decode generated videos into actions, both suffering from a mismatch between visual realism and control relevance. As a result, predicted observations emphasize perceptual fidelity rather than action-centric causes of state transitions, leading to indirect and unstable control. To address this gap, we propose MoLA (Mixture of Latent Actions), a control-oriented interface that transforms imagined future videos into executable representations. Instead of passing predicted frames directly to the policy, MoLA leverages a mixture of pretrained inverse dynamics models to infer a mixture of latent actions implied by generated visual transitions. These modality-aware inverse dynamics models capture complementary semantic, depth, and flow cues, providing a structured and physically grounded action representation that bridges video imagination and policy execution. We evaluate our approach on simulated benchmarks (LIBERO, CALVIN, and LIBERO-Plus) and real-world robot manipulation tasks, achieving consistent gains in task success, temporal consistency, and generalization.