RotVLA: Rotational Latent Action for Vision-Language-Action Model

📄 arXiv: 2605.13403v1 📥 PDF

作者: Qiwei Li, Xicheng Gong, Xinghang Li, Peiyan Li, Quanyun Zhou, Hangjun Ye, Jiahuan Zhou, Yadong Mu

分类: cs.RO, cs.CV

发布日期: 2026-05-13


💡 一句话要点

RotVLA:基于旋转潜在动作的视觉-语言-动作模型,提升机器人控制性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 潜在动作模型 机器人控制 旋转群 流匹配

📋 核心要点

  1. 现有潜在动作模型(LAMs)依赖离散量化,导致帧重建行为简单化,表征能力受限,缺乏物理意义。
  2. RotVLA将潜在动作建模为SO(n)群上的元素,利用其连续性、可组合性和结构化几何特性,更贴合真实动作。
  3. RotVLA在多个数据集上预训练,并在下游机器人控制任务中超越现有VLA模型,展示了其有效性。

📝 摘要(中文)

本文提出了一种名为RotVLA的视觉-语言-动作(VLA)框架,该框架基于连续的旋转潜在动作表示。RotVLA将潜在动作建模为SO(n)的元素,从而提供连续性、可组合性和与真实世界动作动力学对齐的结构化几何。一个三元组帧学习框架进一步加强了有意义的时间动态,同时避免了退化。RotVLA由一个VLM骨干网络和一个流匹配动作头组成,它们在大规模跨具身机器人数据集和人类视频上进行预训练,并带有潜在动作监督。对于下游机器人控制,流匹配头被扩展为一个统一的动作专家,共同去噪潜在动作和机器人动作。在这里,潜在动作充当潜在规划器,提供指导动作生成的高级指导。RotVLA仅使用17亿参数和1700+小时的预训练数据,在LIBERO上实现了98.2%的准确率,在RoboTwin2.0的干净和随机设置下分别实现了89.6%和88.5%的准确率。它还在操作任务中展示了强大的真实世界性能,始终优于现有的VLA模型。

🔬 方法详解

问题定义:现有的基于潜在动作的视觉-语言-动作模型(VLA)依赖于离散的潜在动作空间,这导致了几个问题:一是模型容易陷入简单的帧重建,忽略了动作的物理意义;二是离散的潜在空间限制了模型的表征能力;三是缺乏对真实世界动作动力学的建模能力。这些问题限制了VLA模型在复杂机器人控制任务中的应用。

核心思路:RotVLA的核心思路是将潜在动作表示为特殊正交群SO(n)上的元素。SO(n)群具有连续性、可组合性和结构化几何特性,能够更好地捕捉真实世界动作的动力学。通过将潜在动作建模为SO(n)群上的旋转,RotVLA能够学习到更加丰富和具有物理意义的动作表示,从而提升VLA模型在机器人控制任务中的性能。

技术框架:RotVLA框架主要由三个部分组成:视觉-语言模型(VLM)骨干网络、流匹配动作头和三元组帧学习框架。VLM骨干网络负责提取视觉和语言特征。流匹配动作头负责将潜在动作解码为具体的机器人动作。三元组帧学习框架用于学习有意义的时间动态,避免模型退化。整个框架通过大规模跨具身机器人数据集和人类视频进行预训练,并使用潜在动作进行监督。

关键创新:RotVLA的关键创新在于使用连续的旋转潜在动作表示。与现有的基于离散潜在动作的VLA模型相比,RotVLA能够学习到更加丰富和具有物理意义的动作表示,并且能够更好地捕捉真实世界动作的动力学。此外,RotVLA还提出了一个三元组帧学习框架,用于学习有意义的时间动态,避免模型退化。

关键设计:RotVLA的关键设计包括:1) 将潜在动作建模为SO(n)群上的元素,使用李代数进行参数化;2) 使用流匹配模型将潜在动作解码为具体的机器人动作;3) 设计三元组帧学习损失函数,鼓励模型学习有意义的时间动态;4) 将流匹配动作头扩展为一个统一的动作专家,共同去噪潜在动作和机器人动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RotVLA在多个机器人控制任务中取得了显著的性能提升。在LIBERO数据集上,RotVLA达到了98.2%的准确率。在RoboTwin2.0数据集上,RotVLA在干净和随机设置下分别达到了89.6%和88.5%的准确率。此外,RotVLA还在真实世界的操作任务中表现出色,始终优于现有的VLA模型。这些结果表明,RotVLA是一种有效的VLA框架,具有很强的泛化能力。

🎯 应用场景

RotVLA在机器人操作、自动驾驶、虚拟现实等领域具有广泛的应用前景。它可以用于训练更智能、更灵活的机器人,使其能够更好地理解人类指令并完成复杂的任务。此外,RotVLA还可以用于生成逼真的虚拟环境,并为用户提供更加沉浸式的体验。未来,RotVLA有望成为通用人工智能的重要组成部分。

📄 摘要(原文)

Latent Action Models (LAMs) have emerged as an effective paradigm for handling heterogeneous datasets during Vision-Language-Action (VLA) model pretraining, offering a unified action space across embodiments. However, existing LAMs often rely on discrete quantization encode and decode pipelines, which can lead to trivial frame reconstruction behavior, limited representational capacity, and a lack of physically meaningful structure. We introduce RotVLA, a VLA framework built on a continuous rotational latent action representation. Latent actions are modeled as elements of SO(n), providing continuity, compositionality, and structured geometry aligned with real-world action dynamics. A triplet frame learning framework further enforces meaningful temporal dynamics while avoiding degeneration. RotVLA consists of a VLM backbone and a flow-matching action head, pretrained on large-scale cross-embodiment robotic datasets and human videos with latent-action supervision. For downstream robot control, the flow-matching head is extended into a unified action expert that jointly denoises latent and robot actions. Here, latent actions serve as a latent planner, providing high-level guidance that conditions action generation. With only 1.7B parameters and 1700+ hours of pretraining data, RotVLA achieves 98.2% on LIBERO and 89.6% / 88.5% on RoboTwin2.0 under clean and randomized settings, respectively. It also demonstrates strong real-world performance on manipulation tasks, consistently outperforming existing VLA models.