LatBot: Distilling Universal Latent Actions for Vision-Language-Action Models

作者: Zuolei Li, Xingyu Gao, Xiaofan Wang, Jianlong Fu

分类: cs.RO

发布日期: 2025-11-28

备注: Project Page: https://mm-robot.github.io/distill_latent_action/

💡 一句话要点

LatBot：通过蒸馏通用隐空间动作提升视觉-语言-动作模型的机器人操作能力

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 隐空间动作学习 视觉-语言-动作模型 物理先验 少样本学习

📋 核心要点

现有方法主要依赖视觉重建目标，忽略了物理先验，导致学习到的通用表示次优，限制了机器人操作任务的泛化能力。
提出一种通用隐空间动作学习框架，通过预测动作序列来捕获物理先验，并分解隐空间动作为运动和场景令牌，过滤无关动态。
通过蒸馏学习到的隐空间动作到VLA模型，在模拟和真实机器人环境中都取得了显著的性能提升，尤其在少样本学习方面表现出色。

📝 摘要（中文）

本文提出了一种通用的隐空间动作学习框架，旨在从大规模物体操作视频中学习可迁移的隐空间动作，从而增强下游机器人任务的泛化能力。该框架以任务指令和多帧图像作为输入，同时优化未来帧的重构和动作序列的预测。与以往工作不同，该方法通过结合动作预测（例如，夹爪或手部的轨迹和方向）来捕获更丰富的物理先验知识，例如真实世界的距离和方向，从而实现到下游任务的无缝迁移。此外，该方法将隐空间动作分解为可学习的运动和场景令牌，以区分机器人的主动运动和环境变化，从而过滤掉不相关的动态。通过将学习到的隐空间动作提炼到最新的VLA模型中，在模拟（SIMPLER和LIBERO）和真实机器人环境中都取得了强大的性能。特别值得注意的是，在Franka机器人上，每个任务仅收集10个真实轨迹，该方法就成功完成了所有五个具有挑战性的任务，展示了强大的少样本迁移能力。

🔬 方法详解

问题定义：现有方法在学习机器人操作的通用动作表示时，主要依赖视觉重建，忽略了物理世界的约束，例如距离、方向等物理先验知识。这导致学习到的动作表示在不同机器人和任务之间的迁移能力较弱，泛化性能不佳。

核心思路：本文的核心思路是通过引入动作序列预测作为辅助任务，让模型学习到更丰富的物理先验知识。同时，将隐空间动作分解为运动和场景令牌，从而区分机器人自身的动作和环境的变化，过滤掉不相关的动态信息，提高动作表示的鲁棒性。

技术框架：该框架以任务指令和多帧图像作为输入，首先通过编码器提取视觉和语言特征。然后，将这些特征输入到隐空间动作学习模块，该模块同时优化未来帧的重构和动作序列的预测。动作序列预测模块预测夹爪或手部的轨迹和方向等信息。隐空间动作被分解为运动和场景令牌，分别表示机器人的主动运动和环境变化。最后，将学习到的隐空间动作蒸馏到VLA模型中，用于下游的机器人操作任务。

关键创新：最重要的创新点在于同时优化未来帧重构和动作序列预测，从而将物理先验知识融入到隐空间动作的学习中。此外，将隐空间动作分解为运动和场景令牌，可以有效过滤掉不相关的动态信息，提高动作表示的鲁棒性。

关键设计：动作序列预测模块使用多层感知机（MLP）来预测夹爪或手部的轨迹和方向。损失函数包括未来帧重构损失和动作序列预测损失。运动和场景令牌通过可学习的嵌入向量表示。蒸馏过程使用KL散度损失来约束VLA模型的输出与学习到的隐空间动作的分布一致。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在模拟和真实机器人环境中都取得了显著的性能提升。特别是在少样本学习方面，仅使用每个任务10个真实轨迹，该方法就成功完成了所有五个具有挑战性的任务，展示了强大的少样本迁移能力。与基线方法相比，该方法在任务成功率方面取得了显著的提升。

🎯 应用场景

该研究成果可应用于各种机器人操作任务，例如物体抓取、放置、组装等。通过学习通用的隐空间动作表示，可以降低机器人学习新任务的成本，提高机器人的泛化能力和适应性。该方法在工业自动化、家庭服务机器人等领域具有广阔的应用前景。

📄 摘要（原文）

Learning transferable latent actions from large-scale object manipulation videos can significantly enhance generalization in downstream robotics tasks, as such representations are agnostic to different robot embodiments. Existing approaches primarily rely on visual reconstruction objectives while neglecting physical priors, leading to sub-optimal performance in learning universal representations. To address these challenges, we propose a Universal Latent Action Learning framework that takes task instructions and multiple frames as inputs, and optimizes both future frame reconstruction and action sequence prediction. Unlike prior works, incorporating action predictions (e.g., gripper or hand trajectories and orientations) allows the model to capture richer physical priors such as real-world distances and orientations, thereby enabling seamless transferability to downstream tasks. We further decompose the latent actions into learnable motion and scene tokens to distinguish the robot's active movements from environmental changes, thus filtering out irrelevant dynamics. By distilling the learned latent actions into the latest VLA models, we achieve strong performance across both simulated (SIMPLER and LIBERO) and real-world robot settings. Notably, with only 10 real-world trajectories per task collected on a Franka robot, our approach successfully completes all five challenging tasks, demonstrating strong few-shot transferability in robotic manipulation.

LatBot: Distilling Universal Latent Actions for Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理