RotVLA: Rotational Latent Action for Vision-Language-Action Model

作者: Qiwei Li, Xicheng Gong, Xinghang Li, Peiyan Li, Quanyun Zhou, Hangjun Ye, Jiahuan Zhou, Yadong Mu

分类: cs.RO, cs.CV

发布日期: 2026-05-13

💡 一句话要点

RotVLA：基于旋转潜在动作的视觉-语言-动作模型，提升机器人控制性能。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 潜在动作模型 机器人控制 旋转群 流匹配

📋 核心要点

现有潜在动作模型（LAMs）依赖离散量化，导致帧重建行为简单化，表征能力受限，缺乏物理意义。
RotVLA将潜在动作建模为SO(n)群上的元素，利用其连续性、可组合性和结构化几何特性，更贴合真实动作。
RotVLA在多个数据集上预训练，并在下游机器人控制任务中超越现有VLA模型，展示了其有效性。

📝 摘要（中文）

本文提出了一种名为RotVLA的视觉-语言-动作（VLA）框架，该框架基于连续的旋转潜在动作表示。RotVLA将潜在动作建模为SO(n)的元素，从而提供连续性、可组合性和与真实世界动作动力学对齐的结构化几何。一个三元组帧学习框架进一步加强了有意义的时间动态，同时避免了退化。RotVLA由一个VLM骨干网络和一个流匹配动作头组成，它们在大规模跨具身机器人数据集和人类视频上进行预训练，并带有潜在动作监督。对于下游机器人控制，流匹配头被扩展为一个统一的动作专家，共同去噪潜在动作和机器人动作。在这里，潜在动作充当潜在规划器，提供指导动作生成的高级指导。RotVLA仅使用17亿参数和1700+小时的预训练数据，在LIBERO上实现了98.2%的准确率，在RoboTwin2.0的干净和随机设置下分别实现了89.6%和88.5%的准确率。它还在操作任务中展示了强大的真实世界性能，始终优于现有的VLA模型。

🔬 方法详解

问题定义：现有的基于潜在动作的视觉-语言-动作模型（VLA）依赖于离散的潜在动作空间，这导致了几个问题：一是模型容易陷入简单的帧重建，忽略了动作的物理意义；二是离散的潜在空间限制了模型的表征能力；三是缺乏对真实世界动作动力学的建模能力。这些问题限制了VLA模型在复杂机器人控制任务中的应用。

核心思路：RotVLA的核心思路是将潜在动作表示为特殊正交群SO(n)上的元素。SO(n)群具有连续性、可组合性和结构化几何特性，能够更好地捕捉真实世界动作的动力学。通过将潜在动作建模为SO(n)群上的旋转，RotVLA能够学习到更加丰富和具有物理意义的动作表示，从而提升VLA模型在机器人控制任务中的性能。

技术框架：RotVLA框架主要由三个部分组成：视觉-语言模型（VLM）骨干网络、流匹配动作头和三元组帧学习框架。VLM骨干网络负责提取视觉和语言特征。流匹配动作头负责将潜在动作解码为具体的机器人动作。三元组帧学习框架用于学习有意义的时间动态，避免模型退化。整个框架通过大规模跨具身机器人数据集和人类视频进行预训练，并使用潜在动作进行监督。

关键创新：RotVLA的关键创新在于使用连续的旋转潜在动作表示。与现有的基于离散潜在动作的VLA模型相比，RotVLA能够学习到更加丰富和具有物理意义的动作表示，并且能够更好地捕捉真实世界动作的动力学。此外，RotVLA还提出了一个三元组帧学习框架，用于学习有意义的时间动态，避免模型退化。

关键设计：RotVLA的关键设计包括：1) 将潜在动作建模为SO(n)群上的元素，使用李代数进行参数化；2) 使用流匹配模型将潜在动作解码为具体的机器人动作；3) 设计三元组帧学习损失函数，鼓励模型学习有意义的时间动态；4) 将流匹配动作头扩展为一个统一的动作专家，共同去噪潜在动作和机器人动作。

🖼️ 关键图片

📊 实验亮点

RotVLA在多个机器人控制任务中取得了显著的性能提升。在LIBERO数据集上，RotVLA达到了98.2%的准确率。在RoboTwin2.0数据集上，RotVLA在干净和随机设置下分别达到了89.6%和88.5%的准确率。此外，RotVLA还在真实世界的操作任务中表现出色，始终优于现有的VLA模型。这些结果表明，RotVLA是一种有效的VLA框架，具有很强的泛化能力。

🎯 应用场景

RotVLA在机器人操作、自动驾驶、虚拟现实等领域具有广泛的应用前景。它可以用于训练更智能、更灵活的机器人，使其能够更好地理解人类指令并完成复杂的任务。此外，RotVLA还可以用于生成逼真的虚拟环境，并为用户提供更加沉浸式的体验。未来，RotVLA有望成为通用人工智能的重要组成部分。

📄 摘要（原文）

Latent Action Models (LAMs) have emerged as an effective paradigm for handling heterogeneous datasets during Vision-Language-Action (VLA) model pretraining, offering a unified action space across embodiments. However, existing LAMs often rely on discrete quantization encode and decode pipelines, which can lead to trivial frame reconstruction behavior, limited representational capacity, and a lack of physically meaningful structure. We introduce RotVLA, a VLA framework built on a continuous rotational latent action representation. Latent actions are modeled as elements of SO(n), providing continuity, compositionality, and structured geometry aligned with real-world action dynamics. A triplet frame learning framework further enforces meaningful temporal dynamics while avoiding degeneration. RotVLA consists of a VLM backbone and a flow-matching action head, pretrained on large-scale cross-embodiment robotic datasets and human videos with latent-action supervision. For downstream robot control, the flow-matching head is extended into a unified action expert that jointly denoises latent and robot actions. Here, latent actions serve as a latent planner, providing high-level guidance that conditions action generation. With only 1.7B parameters and 1700+ hours of pretraining data, RotVLA achieves 98.2% on LIBERO and 89.6% / 88.5% on RoboTwin2.0 under clean and randomized settings, respectively. It also demonstrates strong real-world performance on manipulation tasks, consistently outperforming existing VLA models.

RotVLA: Rotational Latent Action for Vision-Language-Action Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理