Wall-OSS-0.5 Technical Report

📄 arXiv: 2605.30877v1 📥 PDF

作者: Ryan Yu, Pushi Zhang, Starrick Liu, Brae Liu, Miracle Kang, Shalfun Li, Lights Shi, Ellie Ma, Ping Yang, Chris Pan, Jerry Chen, Dongxiu Liu, Rain Sun, Miles Guo, Byron Zhang, Hugo Zhou, Zach Xu, Vincent Chen, Harrison Huang, James Wang, Dance Kuzi, Andy Zhai, Hang Su, Roy Gan, Lucy Liang, Hao Wang, Qian Wang

分类: cs.RO

发布日期: 2026-05-29


💡 一句话要点

Wall-OSS-0.5:开源4B规模VLA模型,实现机器人零样本可执行行为

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人预训练 零样本学习 具身智能 多模态学习

📋 核心要点

  1. 现有VLA预训练模型的效果通常依赖于任务微调后的表现,无法直接评估预训练本身是否具备可执行的机器人行为能力。
  2. Wall-OSS-0.5通过构建一个包含动作生成组件的开源VLA模型,并采用梯度桥接的协同训练方法,实现了预训练模型的直接可执行性。
  3. 实验表明,该模型在零样本情况下即可完成多种机器人任务,微调后性能显著提升,同时保持了良好的视觉-语言理解能力。

📝 摘要(中文)

大规模视觉-语言-动作(VLA)预训练正日益成为机器人策略的基础,然而,VLA预训练的有效性几乎总是在任务特定的微调之后才被报告。这留下了一个根本性的问题:VLA预训练本身是否能产生可执行的机器人行为,或者它仅仅为下游策略学习提供了一个更好的初始化?我们提出了Wall-OSS-0.5,一个开源的4B VLA模型,它建立在一个3B VLM骨干网络之上,并增加了动作生成组件,旨在使预训练的机器人能力可以直接在物理硬件上测量。该模型在超过20个机器人实体上进行预训练,每个epoch处理超过一百万条机器人轨迹,以及一个有基础的多模态语料库。我们采用了一种梯度桥接的协同训练方法,其中三个目标发挥着独特而互补的作用:离散动作预测将强大的VLM原生梯度传递到骨干网络,多模态预测保持了有基础的视觉-语言理解,而连续流匹配则作为部署时的动作接口。在任务特定的微调之前,预训练的checkpoint实现了重要的零样本真实机器人行为,完成了多项任务,包括一个held-out的可变形操作任务,在17个任务套件上实现了较高的任务进度。经过微调后,相同的checkpoint作为一个更强的适应先验,在15个真实机器人任务上达到了60.5%的平均任务进度,超过了π_0.5 17.5%。多模态评估进一步证实,动作训练不会削弱有基础的视觉-语言能力:该模型在加强具身基础的同时,保留了广泛的视觉-语言能力。总之,这些结果将VLA预训练从一种初始化策略重新定位为一种可直接测试的、已经有用的机器人能力来源。

🔬 方法详解

问题定义:现有的大规模视觉-语言-动作(VLA)预训练模型,其性能评估往往依赖于下游任务的微调,无法直接衡量预训练模型本身是否具备可执行的机器人行为能力。这使得我们难以判断VLA预训练究竟是提供了一个更好的初始化,还是真正赋予了模型自主执行任务的能力。

核心思路:Wall-OSS-0.5的核心思路是构建一个可以直接在真实机器人上进行测试的VLA模型。通过在VLM骨干网络中加入动作生成组件,并采用一种梯度桥接的协同训练方法,使得预训练模型能够直接输出可执行的机器人动作,从而避免了对下游任务微调的依赖。

技术框架:Wall-OSS-0.5模型基于一个3B的VLM骨干网络,并在此基础上增加了动作生成模块。整个训练过程采用梯度桥接的协同训练方法,包含三个主要目标:1) 离散动作预测:利用VLM原生的梯度信息,增强骨干网络的学习能力;2) 多模态预测:保持模型对视觉和语言信息的理解能力;3) 连续流匹配:提供部署时可用的连续动作接口。模型在超过20个机器人实体上进行预训练,处理大量的机器人轨迹和多模态语料库。

关键创新:Wall-OSS-0.5的关键创新在于其可直接测试的预训练机器人能力。通过动作生成组件和梯度桥接的协同训练方法,模型能够在没有经过特定任务微调的情况下,直接在真实机器人上执行任务。这与以往VLA预训练模型需要依赖下游任务微调才能展现性能形成了鲜明对比。

关键设计:梯度桥接的协同训练方法是Wall-OSS-0.5的关键设计之一。具体来说,离散动作预测使用交叉熵损失,多模态预测使用对比学习损失,连续流匹配使用L2损失。此外,模型还采用了数据增强、学习率衰减等策略来提高训练效果。动作生成模块的具体网络结构和参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Wall-OSS-0.5在零样本情况下即可完成包括可变形操作在内的多项机器人任务,并在17个任务套件上取得了较高的任务进度。经过微调后,模型在15个真实机器人任务上达到了60.5%的平均任务进度,相比基线模型π_0.5提升了17.5%。这些结果表明,VLA预训练不仅可以作为一种初始化策略,更是一种直接可用的机器人能力来源。

🎯 应用场景

该研究成果可应用于各种需要机器人自主执行任务的场景,如智能制造、家庭服务、医疗辅助等。通过VLA预训练,机器人可以更好地理解人类指令,并根据环境信息自主完成任务,从而提高生产效率和服务质量。未来,该技术有望推动机器人技术的普及和应用。

📄 摘要(原文)

Large-scale Vision-Language-Action (VLA) pretraining is increasingly adopted as the foundation for robot policies, yet the evidence for pretrained VLAs is almost invariably reported after task-specific fine-tuning.This leaves a foundational question unanswered: does VLA pretraining itself yield executable robot behavior, or does it merely furnish a better initialization for downstream policy learning? We present Wall-OSS-0.5, an open-source 4B VLA built upon a 3B VLM backbone augmented with action-generation components, designed so that pretrained robotic capability is directly measurable on physical hardware.The model is pretrained across more than 20 embodiments, processing over one million robot trajectories per epoch alongside a grounded multimodal corpus. We adopt a gradient-bridged co-training recipe in which three objectives play distinct and complementary roles: discrete action prediction routes strong VLM-native gradients into the backbone, multimodal prediction preserves grounded vision-language understanding, and continuous flow matching serves as the deployment-time action interface. Before task-specific fine-tuning, the pretrained checkpoint achieves non-trivial zero-shot real-robot behavior, completing several tasks, including a held-out deformable manipulation task, at high task progress on a 17-task suite. After fine-tuning, the same checkpoint serves as a stronger adaptation prior, reaching 60.5% average task progress on 15 real-robot tasks and outperforming π_0.5 by 17.5%. Multimodal evaluations further confirm that action training does not erode grounded vision-language competence: the model preserves broad vision-language ability while strengthening embodied grounding. Together, these results reposition VLA pretraining from an initialization strategy to a directly testable, already useful source of robot capability.