Generative World Modelling for Humanoids: 1X World Model Challenge Technical Report

作者: Riccardo Mereu, Aidan Scannell, Yuxin Hou, Yi Zhao, Aditya Jitta, Antonio Dominguez, Luigi Acerbi, Amos Storkey, Paul Chang

分类: cs.LG, cs.AI, cs.RO

发布日期: 2025-10-08

备注: 6 pages, 3 figures, 1X world model challenge technical report

💡 一句话要点

针对人形机器人，提出基于生成模型的通用世界建模方法，并在1X World Model Challenge中获得双料冠军。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 世界模型 人形机器人 视频生成 时空Transformer 预测模型

📋 核心要点

现有世界模型在处理复杂的人形机器人交互时，面临着预测精度和模型泛化能力的挑战。
论文提出一种基于生成模型的通用世界建模方法，通过调整视频生成模型和训练时空Transformer来预测未来状态。
实验结果表明，该方法在1X World Model Challenge的采样和压缩两个赛道均取得了第一名的成绩。

📝 摘要（中文）

世界模型是人工智能和机器人领域中一种强大的范式，它使智能体能够通过预测视觉观察或紧凑的潜在状态来推理未来。1X World Model Challenge 引入了一个开源的真实世界人形机器人交互基准，包含两个互补的赛道：采样，侧重于预测未来的图像帧；压缩，侧重于预测未来的离散潜在代码。对于采样赛道，我们调整了视频生成基础模型 Wan-2.2 TI2V-5B，使其能够进行视频状态条件下的未来帧预测。我们使用 AdaLN-Zero 将视频生成模型与机器人状态进行条件约束，并使用 LoRA 进一步对模型进行后训练。对于压缩赛道，我们从头开始训练了一个时空Transformer模型。我们的模型在采样任务中实现了 23.0 dB 的 PSNR，在压缩任务中实现了 6.6386 的 Top-500 CE，在两个挑战赛中均获得第一名。

🔬 方法详解

问题定义：论文旨在解决人形机器人在复杂环境中进行交互时，如何准确预测未来状态的问题。现有的世界模型在处理高维、时序相关的机器人交互数据时，往往面临预测精度不足和泛化能力差的挑战，难以有效地进行长期规划和决策。

核心思路：论文的核心思路是利用生成模型强大的表征学习能力和预测能力，通过学习机器人与环境交互的视频数据，建立一个能够预测未来视觉观察和潜在状态的世界模型。针对不同的预测目标（图像帧和离散潜在代码），分别采用不同的模型结构和训练策略。

技术框架：论文针对1X World Model Challenge的两个赛道，分别提出了不同的技术方案。对于采样赛道，采用预训练的视频生成模型Wan-2.2 TI2V-5B，并使用AdaLN-Zero将机器人状态信息融入到视频生成过程中，然后利用LoRA进行微调。对于压缩赛道，则从头开始训练一个时空Transformer模型，直接预测未来的离散潜在代码。

关键创新：论文的关键创新在于将预训练的视频生成模型应用于机器人世界建模，并结合AdaLN-Zero和LoRA等技术，有效地利用了预训练模型的先验知识，提高了预测精度和泛化能力。此外，针对离散潜在代码的预测，从头训练时空Transformer模型，避免了对预训练模型的依赖。

关键设计：在采样赛道中，AdaLN-Zero用于将机器人状态信息融入到视频生成模型的每一层，LoRA用于在少量数据上进行高效的微调。在压缩赛道中，时空Transformer模型的结构和训练目标是关键，需要仔细设计以保证模型能够有效地学习到时序相关的潜在状态。

📊 实验亮点

该论文提出的方法在1X World Model Challenge中取得了显著的成果，在采样任务中实现了23.0 dB的PSNR，在压缩任务中实现了6.6386的Top-500 CE，均获得了第一名。这些结果表明，该方法在人形机器人世界建模方面具有很强的竞争力。

🎯 应用场景

该研究成果可应用于人形机器人的运动规划、强化学习和人机交互等领域。通过预测未来状态，机器人可以更好地理解环境，做出更合理的决策，从而实现更智能、更自主的行为。此外，该方法还可以推广到其他类型的机器人和环境，具有广泛的应用前景。

📄 摘要（原文）

World models are a powerful paradigm in AI and robotics, enabling agents to reason about the future by predicting visual observations or compact latent states. The 1X World Model Challenge introduces an open-source benchmark of real-world humanoid interaction, with two complementary tracks: sampling, focused on forecasting future image frames, and compression, focused on predicting future discrete latent codes. For the sampling track, we adapt the video generation foundation model Wan-2.2 TI2V-5B to video-state-conditioned future frame prediction. We condition the video generation on robot states using AdaLN-Zero, and further post-train the model using LoRA. For the compression track, we train a Spatio-Temporal Transformer model from scratch. Our models achieve 23.0 dB PSNR in the sampling task and a Top-500 CE of 6.6386 in the compression task, securing 1st place in both challenges.

Generative World Modelling for Humanoids: 1X World Model Challenge Technical Report

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册