PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

📄 arXiv: 2604.20834v1 📥 PDF

作者: Yupeng Zheng, Xiang Li, Songen Gu, Yuhang Zheng, Shuai Tian, Weize Li, Linbo Wang, Senyu Fei, Pengfei Li, Yinfeng Gao, Zebin Xing, Yilun Chen, Qichao Zhang, Haoran Li, Wenchao Ding

分类: cs.RO

发布日期: 2026-04-22

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

PokeVLA:融合世界知识的轻量级视觉-语言-动作模型,赋能口袋机器人操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人操作 具身智能 多模态学习 知识融合

📋 核心要点

  1. 现有VLA模型在机器人操作中效率低,缺乏高层次知识和空间感知能力,限制了其应用。
  2. PokeVLA通过两阶段训练,首先预训练视觉-语言模型,然后将操作相关的表示注入动作空间,提升性能。
  3. 实验表明,PokeVLA在LIBERO-Plus基准测试和实际部署中均优于现有方法,具有更高的成功率和鲁棒性。

📝 摘要(中文)

视觉-语言-动作(VLA)模型的最新进展为机器人操作开辟了新途径,但现有方法效率有限,缺乏高层次知识和空间感知能力。为了解决这些挑战,我们提出了PokeVLA,一个轻量级但功能强大的具身操作基础模型,它有效地将视觉-语言理解融入到动作学习中。我们的框架引入了一个两阶段训练范式:首先,我们在一个包含240万个样本的精选多模态数据集上预训练一个紧凑的视觉-语言模型(PokeVLM),该数据集涵盖空间定位、可供性和具身推理任务;其次,我们通过多视角目标感知语义学习、几何对齐和一个新的动作专家,将操作相关的表示注入到动作空间中。大量的实验表明,在LIBERO-Plus基准测试和实际部署中,PokeVLA表现出了最先进的性能,在成功率和各种扰动下的鲁棒性方面优于同类基线。为了促进可重复性和社区进步,我们将开源我们的代码、模型权重和精选预训练数据集的脚本。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在机器人操作任务中,存在效率不高、缺乏高层次知识和空间感知能力的问题。这些问题限制了模型在复杂环境和真实场景中的应用,使得机器人难以理解任务目标、规划合理动作并有效执行。

核心思路:PokeVLA的核心思路是构建一个轻量级但功能强大的基础模型,通过融合视觉-语言理解和动作学习,提升机器人的操作能力。具体而言,它通过预训练一个紧凑的视觉-语言模型(PokeVLM)来获取世界知识,并通过多视角目标感知语义学习和几何对齐将这些知识注入到动作空间中。

技术框架:PokeVLA采用两阶段训练范式。第一阶段,预训练视觉-语言模型(PokeVLM),使其具备空间定位、可供性和具身推理能力。第二阶段,将操作相关的表示注入到动作空间中,包括多视角目标感知语义学习、几何对齐和一个新的动作专家。最终,模型能够根据视觉和语言输入,生成合理的机器人动作。

关键创新:PokeVLA的关键创新在于其轻量级设计和对世界知识的有效利用。通过预训练紧凑的视觉-语言模型,PokeVLA能够在有限的计算资源下获得丰富的知识,并通过多视角语义学习和几何对齐,将这些知识有效地融入到动作学习中。此外,提出的动作专家进一步提升了动作生成的质量。

关键设计:PokeVLA的关键设计包括:(1) 精选的多模态预训练数据集,包含240万个样本,涵盖空间定位、可供性和具身推理任务;(2) 多视角目标感知语义学习,利用多视角信息提升目标识别和理解的准确性;(3) 几何对齐,将视觉信息与机器人动作空间进行对齐,确保动作的合理性;(4) 动作专家,用于生成高质量的机器人动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PokeVLA在LIBERO-Plus基准测试和实际部署中均取得了最先进的性能。相较于同类基线,PokeVLA在成功率和各种扰动下的鲁棒性方面均有显著提升。具体性能数据将在开源的代码和模型权重中提供。

🎯 应用场景

PokeVLA具有广泛的应用前景,包括家庭服务机器人、工业自动化、医疗辅助等领域。它可以帮助机器人更好地理解人类指令,执行复杂的任务,提高工作效率和服务质量。未来,PokeVLA有望成为机器人领域的重要基础模型,推动机器人技术的进一步发展。

📄 摘要(原文)

Recent advances in Vision-Language-Action (VLA) models have opened new avenues for robot manipulation, yet existing methods exhibit limited efficiency and a lack of high-level knowledge and spatial awareness. To address these challenges, we propose PokeVLA, a lightweight yet powerful foundation model for embodied manipulation that effectively infuses vision-language understanding into action learning. Our framework introduces a two-stage training paradigm: first, we pre-train a compact vision-language model (PokeVLM) on a curated multimodal dataset of 2.4M samples encompassing spatial grounding, affordance, and embodied reasoning tasks; second, we inject manipulation-relevant representations into the action space through multi-view goal-aware semantics learning, geometry alignment, and a novel action expert. Extensive experiments demonstrate state-of-the-art performance on the LIBERO-Plus benchmark and in real-world deployment, outperforming comparable baselines in success rate and robustness under diverse perturbations. To foster reproducibility and community progress, we will open-source our code, model weights, and the scripts for the curated pre-training dataset. Project page: https://getterupper.github.io/PokeVLA