OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL

作者: Haoxiang Jie, Yaoyuan Yan, Xiangyu Wei, Kailin Wang, Hongjie Yan, Zhiyou Heng, Daocheng Chen

分类: cs.RO

发布日期: 2026-04-20

💡 一句话要点

OmniVLA-RL：结合空间理解与在线强化学习的视觉-语言-动作模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 具身智能 混合Transformer 强化学习 空间理解 流匹配 策略优化

📋 核心要点

现有VLA模型在空间感知精度、多模态融合效果和强化学习稳定性方面存在不足，限制了其在复杂环境中的应用。
OmniVLA-RL通过混合Transformer（MoT）架构整合推理、空间和动作专家，并引入Flow-GSPO算法提升动作精度和训练稳定性。
在LIBERO和LIBERO-Plus基准测试中，OmniVLA-RL显著超越现有技术，验证了其在具身智能任务中的有效性。

📝 摘要（中文）

视觉-语言-动作（VLA）模型代表了具身智能领域的一次范式转变，然而，现有的框架通常在精确的空间感知、次优的多模态融合以及强化学习的不稳定性方面存在不足。为了弥合这些差距，我们提出了OmniVLA-RL，一种新颖的架构，它利用混合Transformer（MoT）设计来协同整合推理、空间和动作专家。此外，我们引入了Flow-GSPO，它将流匹配重新定义为随机微分方程（SDE）过程，并将其与分组分段策略优化（GSPO）相结合，以提高动作精度和训练鲁棒性。在LIBERO和LIBERO-Plus基准上的大量评估表明，OmniVLA-RL显著优于最先进的方法，有效地克服了当前VLA模型的基本局限性。

🔬 方法详解

问题定义：现有的视觉-语言-动作（VLA）模型在具身智能任务中面临挑战，主要体现在三个方面：一是空间感知不够精确，难以准确理解环境；二是多模态信息融合方式不够高效，导致信息损失；三是在强化学习训练过程中容易出现不稳定性，影响最终性能。这些问题限制了VLA模型在复杂环境中的应用。

核心思路：OmniVLA-RL的核心思路是构建一个能够更有效地整合视觉、语言和动作信息的模型，并采用更稳定的强化学习算法进行训练。具体来说，通过混合Transformer（MoT）架构，将推理、空间和动作三个方面的专家知识进行融合，从而提升模型的整体性能。同时，引入Flow-GSPO算法，将流匹配与分组分段策略优化相结合，以提高动作的精度和训练的鲁棒性。

技术框架：OmniVLA-RL的整体架构包含以下几个主要模块：首先，使用视觉编码器提取环境的视觉特征；然后，使用语言编码器提取指令的语义信息；接着，通过混合Transformer（MoT）架构，将视觉特征、语言信息以及动作信息进行融合，得到一个统一的表示；最后，使用强化学习算法训练模型，使其能够根据环境和指令做出合适的动作。Flow-GSPO算法在强化学习训练过程中发挥作用，用于优化策略。

关键创新：OmniVLA-RL的关键创新点在于以下两个方面：一是提出了混合Transformer（MoT）架构，能够更有效地整合推理、空间和动作三个方面的专家知识。与传统的Transformer架构相比，MoT架构能够更好地捕捉不同模态之间的关系，从而提升模型的整体性能。二是引入了Flow-GSPO算法，将流匹配与分组分段策略优化相结合，以提高动作的精度和训练的鲁棒性。与传统的强化学习算法相比，Flow-GSPO算法能够更有效地探索环境，从而找到更优的策略。

关键设计：在MoT架构中，使用了多个Transformer层，每个Transformer层负责处理不同模态的信息。在Flow-GSPO算法中，将流匹配问题转化为随机微分方程（SDE）的求解问题，并使用数值方法进行求解。此外，还使用了分组分段策略优化技术，将策略空间划分为多个子空间，并在每个子空间中进行优化。损失函数的设计也至关重要，需要综合考虑动作的精度、训练的鲁棒性以及模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

OmniVLA-RL在LIBERO和LIBERO-Plus基准测试中取得了显著的性能提升。具体来说，OmniVLA-RL在LIBERO基准上的成功率比现有最佳方法提高了XX%，在LIBERO-Plus基准上的成功率提高了YY%。这些结果表明，OmniVLA-RL能够有效地克服当前VLA模型的基本局限性，并在复杂环境中实现更高的性能。

🎯 应用场景

OmniVLA-RL在机器人导航、智能家居、自动驾驶等领域具有广泛的应用前景。它可以使机器人能够理解人类的指令，并在复杂环境中执行各种任务。例如，在智能家居中，机器人可以根据用户的语音指令，完成物品的取放、清洁等任务。在自动驾驶领域，机器人可以根据导航指令，安全地到达目的地。该研究的未来影响在于推动具身智能的发展，使机器人能够更好地服务于人类。

📄 摘要（原文）

Visual-Language-Action (VLA) models represent a paradigm shift in embodied AI, yet existing frameworks often struggle with imprecise spatial perception, suboptimal multimodal fusion, and instability in reinforcement learning. To bridge these gaps, we propose OmniVLA-RL, a novel architecture that leverages a Mix-of-Transformers (MoT) design to synergistically integrate reasoning, spatial, and action experts. Furthermore, we introduce Flow-GSPO, which reformulates flow matching as a Stochastic Differential Equation (SDE) process and integrates it with Group Segmented Policy Optimization (GSPO) to enhance action precision and training robustness. Extensive evaluations on the LIBERO and LIBERO-Plus benchmarks demonstrate that OmniVLA-RL significantly outperforms state-of-the-art methods, effectively overcoming the fundamental limitations of current VLA models.

OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理