X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

作者: Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-10-11

备注: preprint, technical report, 33 pages

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

X-VLA：基于软提示Transformer的可扩展跨具身视觉-语言-动作模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 跨具身学习 软提示学习 Transformer 机器人控制

📋 核心要点

现有VLA模型难以有效利用跨具身机器人数据的异构性，阻碍了通用机器人学习的发展。
论文提出软提示方法，为每个数据源引入可学习嵌入，作为具身特定提示，提升模型对异构数据的利用。
X-VLA在多个模拟和真实机器人任务中取得SOTA性能，验证了其在灵活性和快速适应性方面的优势。

📝 摘要（中文）

通用的视觉-语言-动作（VLA）模型依赖于跨多种机器人平台的大规模、跨具身、异构数据集上的有效训练。为了促进和利用丰富多样的机器人数据源中的异构性，我们提出了一种新的软提示方法，通过将提示学习的概念注入跨具身机器人学习中，并为每个不同的数据源引入单独的可学习嵌入集，从而以最小的参数添加来实现。这些嵌入作为特定于具身的提示，共同赋予VLA模型有效利用不同跨具身特征的能力。我们新的X-VLA，一个简洁的基于流匹配的VLA架构，完全依赖于软提示的标准Transformer编码器，兼具可扩展性和简单性。在6个模拟环境和3个真实世界机器人上的评估表明，我们的0.9B实例化-X-VLA-0.9B同时在多个基准测试中实现了SOTA性能，在灵活的灵巧性到跨具身、环境和任务的快速适应等广泛的能力轴上展示了卓越的结果。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）模型在处理来自不同机器人平台和环境的异构数据时面临挑战。直接混合这些数据会导致模型性能下降，因为不同具身的数据分布存在差异。现有方法要么忽略这种差异，要么需要复杂的领域适应技术，增加了训练的复杂性。

核心思路：论文的核心思路是利用软提示学习，为每个具身（embodiment）的数据引入一个可学习的提示向量。这些提示向量能够捕捉特定具身的数据特征，从而帮助模型更好地理解和利用异构数据。通过这种方式，模型可以在统一的框架下处理来自不同具身的数据，而无需进行复杂的领域适应。

技术框架：X-VLA架构基于Transformer编码器，并引入了软提示模块。整体流程如下：首先，对输入图像和文本进行编码，得到视觉和语言特征。然后，将这些特征与对应具身的软提示向量拼接，作为Transformer编码器的输入。编码器输出融合后的特征，用于预测动作。X-VLA采用基于流匹配的训练方法，旨在提高模型的稳定性和泛化能力。

关键创新：关键创新在于软提示模块的设计。与传统的硬提示不同，软提示是可学习的嵌入向量，可以根据数据进行调整。这种设计使得模型能够更好地捕捉特定具身的数据特征，从而提高性能。此外，X-VLA架构简洁，仅依赖于标准的Transformer编码器，易于扩展和部署。

关键设计：每个具身对应一个独立的软提示向量，这些向量在训练过程中进行学习。论文采用了基于流匹配的损失函数，旨在提高模型的训练稳定性和泛化能力。Transformer编码器的层数和隐藏层维度等超参数根据模型大小进行调整。具体而言，X-VLA-0.9B模型包含多层Transformer编码器，并使用AdamW优化器进行训练。

🖼️ 关键图片

📊 实验亮点

X-VLA-0.9B在6个模拟环境和3个真实世界机器人上的实验结果表明，其在多个基准测试中取得了SOTA性能。例如，在Dexterity任务中，X-VLA的成功率显著高于现有方法。此外，X-VLA还展现了良好的跨具身适应能力，能够在不同机器人平台上快速适应新任务。

🎯 应用场景

该研究成果可应用于通用机器人控制、机器人辅助、自动化生产等领域。通过学习不同机器人的数据，X-VLA能够实现跨平台、跨任务的机器人控制，降低机器人部署和维护成本。未来，该技术有望推动机器人智能化发展，使其更好地服务于人类社会。

📄 摘要（原文）

Successful generalist Vision-Language-Action (VLA) models rely on effective training across diverse robotic platforms with large-scale, cross-embodiment, heterogeneous datasets. To facilitate and leverage the heterogeneity in rich, diverse robotic data sources, we propose a novel Soft Prompt approach with minimally added parameters, by infusing prompt learning concepts into cross-embodiment robot learning and introducing separate sets of learnable embeddings for each distinct data source. These embeddings serve as embodiment-specific prompts, which in unity empower VLA models with effective exploitation of varying cross-embodiment features. Our new X-VLA, a neat flow-matching-based VLA architecture, relies exclusively on soft-prompted standard Transformer encoders, enjoying both scalability and simplicity. Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep of benchmarks, demonstrating superior results on a wide axes of capabilities, from flexible dexterity to quick adaptation across embodiments, environments, and tasks. Website: https://thu-air-dream.github.io/X-VLA/

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理