$π_{0.7}$: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

📄 arXiv: 2604.15483v1 📥 PDF

作者: Physical Intelligence, Bo Ai, Ali Amin, Raichelle Aniceto, Ashwin Balakrishna, Greg Balke, Kevin Black, George Bokinsky, Shihao Cao, Thomas Charbonnier, Vedant Choudhary, Foster Collins, Ken Conley, Grace Connors, James Darpinian, Karan Dhabalia, Maitrayee Dhaka, Jared DiCarlo, Danny Driess, Michael Equi, Adnan Esmail, Yunhao Fang, Chelsea Finn, Catherine Glossop, Thomas Godden, Ivan Goryachev, Lachlan Groom, Haroun Habeeb, Hunter Hancock, Karol Hausman, Gashon Hussein, Victor Hwang, Brian Ichter, Connor Jacobsen, Szymon Jakubczak, Rowan Jen, Tim Jones, Gregg Kammerer, Ben Katz, Liyiming Ke, Mairbek Khadikov, Chandra Kuchi, Marinda Lamb, Devin LeBlanc, Brendon LeCount, Sergey Levine, Xinyu Li, Adrian Li-Bell, Vladislav Lialin, Zhonglin Liang, Wallace Lim, Yao Lu, Enyu Luo, Vishnu Mano, Nandan Marwaha, Aikys Mongush, Liam Murphy, Suraj Nair, Tyler Patterson, Karl Pertsch, Allen Z. Ren, Gavin Schelske, Charvi Sharma, Baifeng Shi, Lucy Xiaoyang Shi, Laura Smith, Jost Tobias Springenberg, Kyle Stachowicz, Will Stoeckle, Jiaming Tang, Jimmy Tanner, Shalom Tekeste, Marcel Torne, Kyle Vedder, Quan Vuong, Anna Walling, Haohuan Wang, Jason Wang, XuDong Wang, Chris Whalen, Samuel Whitmore, Blake Williams, Charles Xu, Sukwon Yoo, Lili Yu, Wuming Zhang, Zhuoyang Zhang, Ury Zhilinsky

分类: cs.LG, cs.RO

发布日期: 2026-04-16

备注: Website: https://www.pi.website/blog/pi07


💡 一句话要点

提出通用机器人基础模型$π_{0.7}$,通过情境引导实现零样本泛化与涌现能力。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人基础模型 零样本泛化 多模态融合 上下文引导 机器人学习

📋 核心要点

  1. 现有机器人模型泛化性不足,难以适应新环境和任务,需要大量特定任务数据。
  2. $π_{0.7}$通过多样化上下文条件引导,利用语言指令、任务元数据和子目标图像,实现策略控制。
  3. 实验表明,$π_{0.7}$在多项任务中表现出色,具备零样本泛化能力,性能媲美专用微调模型。

📝 摘要(中文)

本文提出了一种新的机器人基础模型$π_{0.7}$,该模型能够在各种场景中实现强大的开箱即用性能。$π_{0.7}$可以在未见过的环境中遵循不同的语言指令,包括使用各种厨房设备的多阶段任务;提供零样本跨具身泛化,例如使机器人能够在之前没有见过该任务的情况下折叠衣物;并且能够执行具有挑战性的任务,例如开箱即用地操作咖啡机,其性能水平与更专业的经过RL微调的模型相匹配。$π_{0.7}$背后的主要思想是在训练期间使用多样化的上下文条件。提示中包含的这种条件信息使得可以精确地引导模型以不同的策略执行许多任务。它不仅以描述其应该做什么的语言命令为条件,而且以描述其应该如何做的其他多模态信息为条件,包括关于任务性能和子目标图像的元数据。这使得$π_{0.7}$能够使用非常多样化的数据,包括演示、可能次优的(自主)数据(包括失败)以及来自非机器人来源的数据。我们的实验在多个机器人平台上评估了$π_{0.7}$在需要速度和灵巧性、语言跟随和组合任务泛化的众多任务中的表现。

🔬 方法详解

问题定义:现有机器人学习方法通常需要针对特定任务进行训练,泛化能力差,难以适应新的环境和任务。即使是强化学习微调的模型,也往往只能在特定领域表现良好。因此,如何构建一个通用的机器人基础模型,使其能够具备强大的零样本泛化能力,成为一个重要的研究问题。

核心思路:论文的核心思路是利用多样化的上下文信息来引导模型的行为。通过在训练过程中引入语言指令、任务元数据、子目标图像等多种模态的信息,模型可以学习到更加丰富的任务知识和策略。这种上下文引导的方式使得模型能够根据不同的情境选择合适的行为,从而实现零样本泛化。

技术框架:$π_{0.7}$模型的整体架构是一个基于Transformer的序列到序列模型。该模型接收包括视觉输入(例如,机器人摄像头图像)、语言指令、任务元数据和子目标图像在内的多模态输入,并输出机器人的动作序列。模型通过自注意力机制来学习不同模态之间的关联,并利用交叉注意力机制来融合不同模态的信息。

关键创新:该论文最重要的技术创新点在于其多样化的上下文条件引导机制。与传统的机器人学习方法只依赖于语言指令或视觉输入不同,$π_{0.7}$模型能够同时利用多种模态的信息来指导行为。这种多模态融合的方式使得模型能够更加全面地理解任务,并选择合适的策略。此外,模型还能够利用任务元数据(例如,任务成功率、执行时间等)来优化自身的行为。

关键设计:在训练过程中,论文采用了多种数据增强技术来提高模型的鲁棒性。例如,对图像进行随机裁剪、旋转和颜色变换,对语言指令进行同义词替换等。此外,论文还设计了一种特殊的损失函数,用于鼓励模型学习到更加有效的策略。该损失函数包括行为克隆损失、奖励预测损失和策略熵损失。行为克隆损失用于模仿专家演示,奖励预测损失用于预测任务的奖励,策略熵损失用于鼓励模型探索不同的策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

$π_{0.7}$在多个机器人平台上进行了评估,包括需要速度和灵巧性的任务、语言跟随任务和组合任务泛化。实验结果表明,$π_{0.7}$在各种任务中都取得了出色的性能,并且具备强大的零样本泛化能力。例如,在操作咖啡机的任务中,$π_{0.7}$的性能与经过RL微调的专用模型相匹配。

🎯 应用场景

该研究成果可应用于各种机器人应用场景,如家庭服务机器人、工业自动化机器人、医疗辅助机器人等。通过零样本泛化能力,机器人可以快速适应新任务和环境,降低部署成本,提高工作效率。未来,该技术有望推动机器人智能化水平的提升,实现更广泛的应用。

📄 摘要(原文)

We present a new robotic foundation model, called $π_{0.7}$, that can enable strong out-of-the-box performance in a wide range of scenarios. $π_{0.7}$ can follow diverse language instructions in unseen environments, including multi-stage tasks with various kitchen appliances, provide zero-shot cross-embodiment generalization, for example enabling a robot to fold laundry without seeing the task before, and perform challenging tasks such as operating an espresso machine out of the box at a level of performance that matches much more specialized RL-finetuned models. The main idea behind $π_{0.7}$ is to use diverse context conditioning during training. This conditioning information, contained in the prompt, makes it possible to steer the model precisely to perform many tasks with different strategies. It is conditioned not just on a language command that describes what it should do, but on additional multimodal information that also describes the manner or strategy in which it should do it, including metadata about task performance and subgoal images. This enables $π_{0.7}$ to use very diverse data, including demonstrations, potentially suboptimal (autonomous) data including failures, and data from non-robot sources. Our experiments evaluate $π_{0.7}$ across numerous tasks with multiple robot platforms, on tasks that require speed and dexterity, language following, and compositional task generalization.