$Ψ_0$: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
作者: Songlin Wei, Hongyi Jing, Boqian Li, Zhenyu Zhao, Jiageng Mao, Zhenhao Ni, Sicheng He, Jie Liu, Xiawei Liu, Kaidi Kang, Sheng Zang, Weiduo Yuan, Marco Pavone, Di Huang, Yue Wang
分类: cs.RO
发布日期: 2026-03-12
💡 一句话要点
提出Ψ₀,一个开放的通用人形机器人Loco-Manipulation基础模型
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人形机器人 Loco-Manipulation 基础模型 视觉语言模型 分阶段训练
📋 核心要点
- 现有方法在大量人类和人形机器人数据上联合训练,但忽略了两者运动学差异,导致数据效率和模型性能不佳。
- Ψ₀通过解耦学习过程,先在人类视频上预训练VLM,再在机器人数据上后训练动作专家,提升数据利用率。
- 实验表明,Ψ₀仅用少量数据即可超越在更多数据上训练的基线,成功率提升超过40%。
📝 摘要(中文)
本文介绍了一个开放的基础模型Ψ₀ (Psi-Zero),旨在解决具有挑战性的人形机器人Loco-Manipulation任务。现有方法通常尝试通过在大量多样的人类和人形机器人数据上进行联合训练来解决这个问题,但由于人类和人形机器人之间存在根本的运动学和运动差异,这种策略并非最优。因此,尽管数据量很大,但数据效率和模型性能仍然不令人满意。为了解决这个挑战,本文将学习过程解耦,以最大限度地利用异构数据源。具体来说,提出了一种具有不同学习目标的阶段性训练范式:首先,在大型以自我为中心的人类视频上自回归预训练一个VLM骨干网络,以获得可泛化的视觉-动作表征。然后,在高质量的人形机器人数据上对基于流的动作专家进行后训练,以学习精确的机器人关节控制。研究进一步确定了一个关键但经常被忽视的数据配方:与使用嘈杂的互联网片段或异构的跨具身机器人数据集进行扩展的方法相比,本文证明了在高质量的以自我为中心的人类操作数据上进行预训练,然后在特定领域的真实世界人形机器人轨迹上进行后训练,可以产生卓越的性能。大量的真实世界实验表明,Ψ₀仅使用约800小时的人类视频数据和30小时的真实机器人数据即可实现最佳性能,在多个任务中的总体成功率比在多10倍数据上预训练的基线高出40%以上。本文将向社区开源整个生态系统,包括数据处理和训练pipeline、人形基础模型和实时动作推理引擎。
🔬 方法详解
问题定义:现有的人形机器人Loco-Manipulation方法通常采用在大量人类和机器人数据上进行联合训练的策略。然而,由于人类和机器人之间存在显著的运动学和运动差异,这种方法的数据效率较低,并且最终的模型性能并不理想。因此,如何有效地利用异构数据源,提升人形机器人的Loco-Manipulation能力是一个亟待解决的问题。
核心思路:本文的核心思路是将学习过程解耦,分别利用人类数据和机器人数据的优势。首先,利用大规模的人类视频数据进行预训练,学习通用的视觉-动作表征。然后,利用高质量的机器人数据进行后训练,学习精确的机器人关节控制。这种分阶段的训练方式可以最大限度地利用异构数据源,避免了直接联合训练带来的问题。
技术框架:Ψ₀的整体框架包含两个主要阶段:预训练阶段和后训练阶段。在预训练阶段,使用大规模的以自我为中心的人类视频数据,训练一个视觉语言模型(VLM)骨干网络。该VLM模型学习将视觉输入(例如,第一人称视角下的图像序列)映射到相应的动作序列。在后训练阶段,使用高质量的真实世界人形机器人轨迹数据,训练一个基于流的动作专家。该动作专家学习将VLM的输出映射到精确的机器人关节控制指令。
关键创新:本文的关键创新在于提出了一种分阶段的训练范式,将通用视觉-动作表征的学习和精确机器人控制的学习解耦。这种方法能够有效地利用异构数据源,避免了直接联合训练带来的问题。此外,本文还强调了高质量数据的重要性,并证明了在高质量的人类操作数据上进行预训练,然后在特定领域的真实世界人形机器人轨迹上进行后训练,可以获得卓越的性能。
关键设计:在预训练阶段,VLM骨干网络采用自回归的方式进行训练,学习预测下一个动作。在后训练阶段,基于流的动作专家采用Flow Matching方法,学习将VLM的输出映射到机器人关节控制指令。损失函数的设计旨在最小化预测动作与真实动作之间的差异。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Ψ₀仅使用约800小时的人类视频数据和30小时的真实机器人数据,在多个Loco-Manipulation任务中的总体成功率比在多10倍数据上预训练的基线高出40%以上。这一结果表明,该方法具有很高的数据效率和优越的性能。
🎯 应用场景
该研究成果可应用于各种人形机器人任务,例如家庭服务、工业自动化、医疗辅助等。通过赋予机器人更强的Loco-Manipulation能力,可以使其更好地适应复杂环境,完成各种精细操作,从而提高工作效率和服务质量。未来,该模型有望成为人形机器人领域的基础模型,推动相关技术的发展。
📄 摘要(原文)
We introduce $Ψ_0$ (Psi-Zero), an open foundation model to address challenging humanoid loco-manipulation tasks. While existing approaches often attempt to address this fundamental problem by co-training on large and diverse human and humanoid data, we argue that this strategy is suboptimal due to the fundamental kinematic and motion disparities between humans and humanoid robots. Therefore, data efficiency and model performance remain unsatisfactory despite the considerable data volume. To address this challenge, \ours\;decouples the learning process to maximize the utility of heterogeneous data sources. Specifically, we propose a staged training paradigm with different learning objectives: First, we autoregressively pre-train a VLM backbone on large-scale egocentric human videos to acquire generalizable visual-action representations. Then, we post-train a flow-based action expert on high-quality humanoid robot data to learn precise robot joint control. Our research further identifies a critical yet often overlooked data recipe: in contrast to approaches that scale with noisy Internet clips or heterogeneous cross-embodiment robot datasets, we demonstrate that pre-training on high-quality egocentric human manipulation data followed by post-training on domain-specific real-world humanoid trajectories yields superior performance. Extensive real-world experiments demonstrate that \ours\ achieves the best performance using only about 800 hours of human video data and 30 hours of real-world robot data, outperforming baselines pre-trained on more than 10$\times$ as much data by over 40\% in overall success rate across multiple tasks. We will open-source the entire ecosystem to the community, including a data processing and training pipeline, a humanoid foundation model, and a real-time action inference engine.