UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

📄 arXiv: 2604.19734v1 📥 PDF

作者: Boyu Chen, Yi Chen, Lu Qiu, Jerry Bai, Yuying Ge, Yixiao Ge

分类: cs.RO, cs.AI

发布日期: 2026-04-21

备注: Project page: https://xpeng-robotics.github.io/unit/


💡 一句话要点

UniT:面向人-人形机器人策略学习和世界建模的统一物理语言

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人形机器人 策略学习 世界建模 跨具身迁移 视觉锚定

📋 核心要点

  1. 人形机器人数据稀缺,直接使用人类数据进行策略学习面临运动学差异的挑战。
  2. UniT通过视觉锚定,学习统一的离散潜在空间,将人类和人形机器人的动作意图对齐。
  3. 实验表明,UniT在策略学习和世界建模任务上均表现出色,实现了零样本任务迁移和动作可控性提升。

📝 摘要(中文)

人形机器人基础模型的扩展受限于机器人数据的稀缺性。大规模以人为中心的视觉数据提供了一种可扩展的替代方案,但由于运动学不匹配,跨具身鸿沟仍然是一个根本挑战。我们引入UniT(通过视觉锚定的统一潜在动作标记器),该框架为人类到人形机器人的迁移建立了一种统一的物理语言。基于异构运动学共享通用视觉结果的理念,UniT采用三分支交叉重建机制:动作预测视觉以将运动学锚定到物理结果,而视觉重建动作以过滤掉不相关的视觉混淆因素。同时,融合分支将这些提纯的模态协同到具身无关的物理意图的共享离散潜在空间中。我们在两种范式中验证了UniT:1) 策略学习 (VLA-UniT):通过预测这些统一的token,它有效地利用多样化的人类数据,在人形机器人模拟基准和真实世界部署中实现了最先进的数据效率和鲁棒的分布外 (OOD) 泛化,特别是在零样本任务迁移中。2) 世界建模 (WM-UniT):通过统一的token作为条件对齐跨具身动力学,它实现了直接的人类到人形机器人动作迁移。这种对齐确保了人类数据无缝地转化为增强人形机器人视频生成中的动作可控性。最终,通过诱导高度对齐的跨具身表示(通过t-SNE可视化经验验证,揭示了人类和人形机器人特征融合到共享流形中),UniT为将大量人类知识提炼成通用人形机器人能力提供了一条可扩展的路径。

🔬 方法详解

问题定义:现有的人形机器人策略学习和世界建模方法依赖于大量的机器人数据,而这些数据获取成本高昂。利用大规模的人类数据是一个潜在的解决方案,但由于人类和人形机器人在运动学上的差异,直接迁移策略或模型非常困难。现有的方法难以有效弥合这种“跨具身”的鸿沟。

核心思路:UniT的核心思想是,虽然人类和人形机器人的运动学不同,但它们产生的物理结果(例如,视觉变化)是具有共性的。因此,可以通过学习一个统一的潜在空间,将人类和人形机器人的动作意图映射到这个空间中,从而实现跨具身的知识迁移。这种统一的潜在空间可以被视为一种“物理语言”,它描述了动作的物理含义,而不是具体的运动学细节。

技术框架:UniT采用三分支交叉重建的架构。包含三个分支:人类动作分支、机器人动作分支和视觉分支。人类动作分支和机器人动作分支分别编码人类和机器人的动作序列。视觉分支编码环境的视觉信息。三个分支之间通过交叉重建损失进行连接。具体来说,人类动作分支和机器人动作分支都预测视觉分支的输出,而视觉分支则重建人类动作分支和机器人动作分支的输入。此外,还有一个融合分支,将提纯的动作和视觉信息融合到共享的离散潜在空间中。

关键创新:UniT的关键创新在于它通过视觉锚定来学习统一的潜在空间。通过让动作预测视觉,UniT将运动学与物理结果联系起来。通过让视觉重建动作,UniT过滤掉不相关的视觉混淆因素。这种交叉重建机制有效地对齐了人类和人形机器人的动作意图。此外,使用离散潜在空间也有助于提高模型的泛化能力。

关键设计:UniT的关键设计包括:1) 三分支交叉重建架构;2) 离散潜在空间;3) 视觉锚定损失。具体的损失函数包括动作预测视觉的损失、视觉重建动作的损失,以及离散潜在空间的量化损失。网络结构方面,可以使用Transformer或卷积神经网络来编码动作和视觉信息。参数设置方面,需要仔细调整各个损失函数的权重,以及离散潜在空间的维度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniT在人形机器人模拟基准和真实世界部署中实现了最先进的数据效率和鲁棒的分布外泛化。特别是在零样本任务迁移中,UniT表现出色,证明了其跨具身知识迁移的能力。通过t-SNE可视化,作者验证了人类和人形机器人特征融合到共享流形中,表明UniT成功学习了统一的跨具身表示。

🎯 应用场景

UniT具有广泛的应用前景,包括:1) 机器人策略学习:利用人类数据训练人形机器人,降低数据采集成本;2) 机器人控制:实现更自然、更鲁棒的人形机器人控制;3) 虚拟现实:创建更逼真、更具交互性的虚拟环境;4) 辅助机器人:开发能够理解人类意图并提供帮助的机器人。UniT有望加速人形机器人的发展,使其更好地服务于人类。

📄 摘要(原文)

Scaling humanoid foundation models is bottlenecked by the scarcity of robotic data. While massive egocentric human data offers a scalable alternative, bridging the cross-embodiment chasm remains a fundamental challenge due to kinematic mismatches. We introduce UniT (Unified Latent Action Tokenizer via Visual Anchoring), a framework that establishes a unified physical language for human-to-humanoid transfer. Grounded in the philosophy that heterogeneous kinematics share universal visual consequences, UniT employs a tri-branch cross-reconstruction mechanism: actions predict vision to anchor kinematics to physical outcomes, while vision reconstructs actions to filter out irrelevant visual confounders. Concurrently, a fusion branch synergies these purified modalities into a shared discrete latent space of embodiment-agnostic physical intents. We validate UniT across two paradigms: 1) Policy Learning (VLA-UniT): By predicting these unified tokens, it effectively leverages diverse human data to achieve state-of-the-art data efficiency and robust out-of-distribution (OOD) generalization on both humanoid simulation benchmark and real-world deployments, notably demonstrating zero-shot task transfer. 2) World Modeling (WM-UniT): By aligning cross-embodiment dynamics via unified tokens as conditions, it realizes direct human-to-humanoid action transfer. This alignment ensures that human data seamlessly translates into enhanced action controllability for humanoid video generation. Ultimately, by inducing a highly aligned cross-embodiment representation (empirically verified by t-SNE visualizations revealing the convergence of human and humanoid features into a shared manifold), UniT offers a scalable path to distill vast human knowledge into general-purpose humanoid capabilities.