$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization

作者: Physical Intelligence, Kevin Black, Noah Brown, James Darpinian, Karan Dhabalia, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo Fusai, Manuel Y. Galliker, Dibya Ghosh, Lachy Groom, Karol Hausman, Brian Ichter, Szymon Jakubczak, Tim Jones, Liyiming Ke, Devin LeBlanc, Sergey Levine, Adrian Li-Bell, Mohith Mothukuri, Suraj Nair, Karl Pertsch, Allen Z. Ren, Lucy Xiaoyang Shi, Laura Smith, Jost Tobias Springenberg, Kyle Stachowicz, James Tanner, Quan Vuong, Homer Walke, Anna Walling, Haohuan Wang, Lili Yu, Ury Zhilinsky

分类: cs.LG, cs.RO

发布日期: 2025-04-22

💡 一句话要点

提出$π_{0.5}$视觉-语言-动作模型，通过异构任务协同训练实现开放世界泛化

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人控制 开放世界泛化 协同训练 多模态融合

📋 核心要点

现有VLA模型在真实世界泛化能力不足，难以应对实验室外的复杂环境和任务。
$π_{0.5}$模型通过异构任务协同训练，融合多源数据，提升模型在开放环境中的泛化能力。
实验证明，该模型能够在新环境中执行长时程、灵巧操作任务，如家庭清洁，验证了知识迁移的有效性。

📝 摘要（中文）

为了使机器人真正发挥作用，它们必须在实验室之外的真实世界中执行实际相关的任务。虽然视觉-语言-动作（VLA）模型在端到端机器人控制方面已经展示了令人印象深刻的结果，但这种模型在实际应用中的泛化能力仍然是一个悬而未决的问题。我们描述了$π_{0.5}$，这是一个基于$π_{0}$的新模型，它使用异构任务上的协同训练来实现广泛的泛化。$π_{0.5}$使用来自多个机器人、高层语义预测、网络数据和其他来源的数据，以实现广泛可泛化的真实世界机器人操作。我们的系统结合了协同训练和混合多模态示例，这些示例结合了图像观察、语言命令、对象检测、语义子任务预测和低层动作。我们的实验表明，这种知识转移对于有效的泛化至关重要，并且我们首次证明，一个支持端到端学习的机器人系统可以在全新的家庭中执行长时程和灵巧的操作技能，例如清洁厨房或卧室。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）模型在受控的实验环境中表现良好，但难以泛化到真实、开放的世界。主要痛点在于缺乏足够的多样性数据，以及模型难以将学到的知识迁移到新的环境和任务中。这限制了机器人实际应用的能力，例如在不同家庭环境中完成清洁任务。

核心思路：该论文的核心思路是通过协同训练（co-training）的方式，利用来自多个机器人、高层语义预测、网络数据等异构数据源，来增强模型的泛化能力。通过让模型同时学习不同类型的任务和数据，使其能够更好地理解真实世界的复杂性和多样性，从而提升其在新的环境和任务中的表现。

技术框架：$π_{0.5}$模型基于$π_{0}$模型，采用端到端的学习框架。该框架接收图像观察、语言命令、对象检测、语义子任务预测和低层动作等多种模态的输入。模型通过多模态融合，将这些信息整合起来，生成机器人的控制指令。整个流程包括数据收集、模型训练和部署三个主要阶段。数据收集阶段收集来自不同来源的异构数据，模型训练阶段使用协同训练方法训练模型，部署阶段将训练好的模型部署到机器人上，使其能够执行各种任务。

关键创新：该论文最重要的技术创新点在于使用协同训练方法，将来自不同来源的异构数据融合起来，从而显著提升了模型的泛化能力。与传统的VLA模型相比，$π_{0.5}$模型能够更好地适应新的环境和任务，并且能够执行更复杂的长时程操作。此外，混合多模态示例的构建也是一个创新点，它允许模型同时学习不同类型的知识，从而更好地理解真实世界。

关键设计：论文中关键的设计包括：1) 异构数据的选择和处理，确保数据的多样性和质量；2) 协同训练策略的设计，平衡不同任务之间的学习；3) 多模态融合方法的设计，有效地整合不同模态的信息；4) 损失函数的设计，鼓励模型学习到具有泛化能力的表示。具体的网络结构和参数设置在论文中可能没有详细描述，需要进一步查阅相关资料。

🖼️ 关键图片

📊 实验亮点

实验结果表明，$π_{0.5}$模型在全新的家庭环境中能够成功执行长时程和灵巧的操作技能，例如清洁厨房或卧室。这证明了该模型具有很强的泛化能力，并且能够有效地将学到的知识迁移到新的环境和任务中。具体的性能数据和对比基线可能需要在论文中查找。

🎯 应用场景

该研究成果可广泛应用于家庭服务机器人、工业自动化、医疗辅助等领域。例如，家庭服务机器人可以利用该技术在不同家庭环境中执行清洁、整理等任务；工业机器人可以利用该技术在不同的生产线上执行装配、搬运等任务。该研究的实际价值在于降低了机器人部署的成本和难度，使其能够更好地适应真实世界的复杂环境。未来，该技术有望推动机器人技术的普及和应用。

📄 摘要（原文）

In order for robots to be useful, they must perform practically relevant tasks in the real world, outside of the lab. While vision-language-action (VLA) models have demonstrated impressive results for end-to-end robot control, it remains an open question how far such models can generalize in the wild. We describe $π_{0.5}$, a new model based on $π_{0}$ that uses co-training on heterogeneous tasks to enable broad generalization. $π_{0.5}$\ uses data from multiple robots, high-level semantic prediction, web data, and other sources to enable broadly generalizable real-world robotic manipulation. Our system uses a combination of co-training and hybrid multi-modal examples that combine image observations, language commands, object detections, semantic subtask prediction, and low-level actions. Our experiments show that this kind of knowledge transfer is essential for effective generalization, and we demonstrate for the first time that an end-to-end learning-enabled robotic system can perform long-horizon and dexterous manipulation skills, such as cleaning a kitchen or bedroom, in entirely new homes.

$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理