Pelican-Unified 1.0: A Unified Embodied Intelligence Model for Understanding, Reasoning, Imagination and Action

📄 arXiv: 2605.15153v1 📥 PDF

作者: Yi Zhang, Yinda Chen, Che Liu, Zeyuan Ding, Jin Xu, Shilong Zou, Junwei Liao, Jiayu Hu, Xiancong Ren, Xiaopeng Zhang, Yechi Liu, Haoyuan Shi, Zecong Tang, Haosong Sun, Renwen Cui, Kuishu Wu, Wenhai Liu, Yang Xu, Yingji Zhang, Yidong Wang, Senkang Hu, Jinpeng Lu, Nga Teng Chan, Yechen Wu, Yong Dai, Jian Tang, Xiaozhu Ju

分类: cs.RO, cs.AI

发布日期: 2026-05-14


💡 一句话要点

Pelican-Unified 1.0:统一具身智能模型,实现理解、推理、想象与行动

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 统一模型 视觉语言模型 未来预测 机器人控制

📋 核心要点

  1. 现有具身智能模型通常由多个独立的专家系统组成,缺乏统一的训练和优化机制。
  2. Pelican-Unified 1.0 采用统一的视觉语言模型,将理解、推理、想象和行动整合到一个框架中。
  3. 实验表明,该模型在 VLM 基准测试、WorldArena 和 RoboTwin 上均取得了优异的性能,证明了统一范式的有效性。

📝 摘要(中文)

本文提出了Pelican-Unified 1.0,这是首个基于统一原则训练的具身基础模型。Pelican-Unified 1.0使用单一的视觉语言模型(VLM)作为统一的理解模块,将场景、指令、视觉上下文和行动历史映射到共享的语义空间。该VLM也作为统一的推理模块,以自回归方式在单次前向传播中生成面向任务、行动和未来的思维链,并将最终的隐藏状态投影到密集潜在变量中。然后,统一未来生成器(UFG)以该潜在变量为条件,通过同一去噪过程中的两个特定模态的输出头,联合生成未来视频和未来行动。语言、视频和行动损失都被反向传播到共享表示中,使模型能够在训练期间联合优化理解、推理、想象和行动,而不是训练三个孤立的专家系统。

🔬 方法详解

问题定义:现有具身智能模型通常由多个独立的专家系统组成,例如分别处理视觉理解、推理和行动规划。这些系统之间的协调和信息传递复杂,难以进行端到端的优化,限制了模型的整体性能和泛化能力。此外,缺乏统一的训练机制使得模型难以同时学习和优化理解、推理、想象和行动等多种能力。

核心思路:Pelican-Unified 1.0 的核心思路是采用统一的视觉语言模型(VLM)作为所有模块的基础,将场景、指令、视觉上下文和行动历史映射到共享的语义空间。通过共享表示,模型可以更好地理解环境,进行推理,并生成未来的视频和行动。这种统一的设计使得模型可以进行端到端的训练和优化,从而提高整体性能。

技术框架:Pelican-Unified 1.0 的整体架构包括三个主要模块:统一理解模块、统一推理模块和统一未来生成器(UFG)。统一理解模块使用 VLM 将各种输入信息(场景、指令等)编码到共享的语义空间中。统一推理模块也使用 VLM,以自回归方式生成思维链,并输出一个密集潜在变量。UFG 以该潜在变量为条件,通过两个特定模态的输出头,联合生成未来视频和未来行动。

关键创新:Pelican-Unified 1.0 最重要的技术创新在于其统一的架构设计,它将理解、推理、想象和行动整合到一个模型中。与传统的由多个独立专家系统组成的模型相比,Pelican-Unified 1.0 可以进行端到端的训练和优化,从而更好地学习和利用各种信息。此外,统一未来生成器(UFG)能够同时生成未来视频和未来行动,进一步提高了模型的性能。

关键设计:Pelican-Unified 1.0 的关键设计包括:1) 使用单一的 VLM 作为统一的理解和推理模块;2) 采用自回归的方式生成思维链;3) 使用统一未来生成器(UFG)联合生成未来视频和未来行动;4) 将语言、视频和行动损失反向传播到共享表示中,实现端到端的训练。具体的参数设置、损失函数和网络结构等细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Pelican-Unified 1.0 在多个基准测试中取得了优异的性能。在八个 VLM 基准测试中,该模型取得了 64.7 的平均分,在同等规模的模型中排名第一。在 WorldArena 上,该模型取得了 66.03 的分数,排名第一。在 RoboTwin 上,该模型取得了 93.5 的平均分,在所有对比的行动方法中排名第二。这些结果表明,Pelican-Unified 1.0 在理解、推理、想象和行动方面都具有很强的能力。

🎯 应用场景

Pelican-Unified 1.0 具有广泛的应用前景,例如机器人导航、智能家居、自动驾驶等领域。它可以帮助机器人更好地理解环境,进行推理和决策,并生成合理的行动计划。此外,该模型还可以用于虚拟现实和增强现实等领域,为用户提供更加沉浸式的体验。未来,Pelican-Unified 1.0 有望成为具身智能领域的重要基石。

📄 摘要(原文)

We present Pelican-Unified 1.0, the first embodied foundation model trained according to the principle of unification. Pelican-Unified 1.0 uses a single VLM as a unified understanding module, mapping scenes, instructions, visual contexts, and action histories into a shared semantic space. The same VLM also serves as a unified reasoning module, autoregressively producing task-, action-, and future-oriented chains of thought in a single forward pass and projecting the final hidden state into a dense latent variable. A Unified Future Generator (UFG) then conditions on this latent variable and jointly generates future videos and future actions through two modality-specific output heads within the same denoising process. The language, video, and action losses are all backpropagated into the shared representation, enabling the model to jointly optimize understanding, reasoning, imagination, and action during training, rather than training three isolated expert systems. Experiments demonstrate that unification does not imply compromise. With a single checkpoint, Pelican-Unified 1.0 achieves strong performance across all three capabilities: 64.7 on eight VLM benchmarks, the best among comparable-scale models; 66.03 on WorldArena, ranking first; and 93.5 on RoboTwin, the second-best average among compared action methods. These results show that the unified paradigm succeeds in preserving specialist strength while bringing understanding, reasoning, imagination, and action into one model.