dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model

📄 arXiv: 2604.22152v1 📥 PDF

作者: Yaxuan Li, Zhongyi Zhou, Yefei Chen, Yaokai Xue, Yichen Zhu

分类: cs.RO

发布日期: 2026-04-24


💡 一句话要点

dWorldEval:通过离散扩散世界模型实现可扩展的机器人策略评估

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 机器人策略评估 离散扩散模型 世界模型 多模态学习 强化学习 机器人仿真 Transformer

📋 核心要点

  1. 现有方法难以在数千个环境和任务中评估机器人策略,限制了机器人学习的效率和泛化能力。
  2. dWorldEval将多模态信息统一到token空间,利用离散扩散模型学习环境动态,实现高效的策略评估。
  3. 实验表明,dWorldEval在多个数据集和真实机器人任务上超越现有方法,验证了其有效性和可扩展性。

📝 摘要(中文)

本文提出dWorldEval,它使用离散扩散世界模型作为机器人策略的可扩展评估代理。dWorldEval将包括视觉、语言和机器人动作在内的所有模态映射到一个统一的token空间,并通过一个基于Transformer的去噪网络对它们进行建模。在此基础上,采用稀疏关键帧记忆来保持时空一致性。此外,还引入了一个进度token来指示任务完成的程度。在推理时,模型联合预测未来的观察和进度token,从而在进度达到1时自动确定成功。大量实验表明,dWorldEval在LIBERO、RoboTwin和多个真实机器人任务上显著优于以前的方法,如WorldEval、Ctrl-World和WorldGym。它为构建用于大规模机器人评估的世界模拟器开辟了一种新的架构范式。

🔬 方法详解

问题定义:现有机器人策略评估方法难以扩展到大规模环境和任务,主要痛点在于计算成本高昂,难以模拟复杂环境的长期动态,并且难以处理多模态输入(例如,视觉、语言和动作)。

核心思路:dWorldEval的核心思路是利用离散扩散世界模型学习环境的动态,并将其作为策略评估的代理。通过将所有模态的信息映射到统一的token空间,并使用Transformer进行建模,可以有效地捕捉环境的复杂动态和多模态信息之间的关系。

技术框架:dWorldEval的整体架构包括以下几个主要模块:1) 多模态编码器:将视觉、语言和机器人动作编码为token序列。2) 离散扩散模型:使用Transformer网络学习token序列的去噪过程,从而模拟环境的动态。3) 稀疏关键帧记忆:维护一个关键帧的记忆库,用于保持时空一致性。4) 进度token:指示任务完成的程度,用于自动评估策略的成功与否。在推理时,模型联合预测未来的观察和进度token。

关键创新:dWorldEval的关键创新在于:1) 使用离散扩散模型作为世界模型,能够有效地学习环境的复杂动态。2) 将所有模态的信息映射到统一的token空间,简化了模型的结构,并提高了模型的泛化能力。3) 引入了进度token,可以自动评估策略的成功与否,无需人工干预。

关键设计:dWorldEval的关键设计包括:1) 使用VQ-VAE将视觉信息编码为离散的token。2) 使用Transformer网络作为离散扩散模型的去噪器。3) 使用稀疏关键帧记忆来保持时空一致性,具体实现方式未知。4) 进度token的训练方式未知,但其目标是反映任务完成程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

dWorldEval在LIBERO、RoboTwin和多个真实机器人任务上显著优于之前的WorldEval、Ctrl-World和WorldGym等方法。具体性能提升数据在论文中给出,但摘要中未明确量化提升幅度。实验结果表明,dWorldEval具有更强的环境建模能力和策略评估能力。

🎯 应用场景

dWorldEval可应用于机器人策略的离线评估、强化学习算法的加速训练、以及机器人环境的生成与仿真。通过高效评估大量策略,可以加速机器人学习过程,提升机器人在复杂环境中的适应能力。该技术还有潜力用于开发更逼真的机器人模拟器,降低机器人研发成本。

📄 摘要(原文)

Evaluating robotics policies across thousands of environments and thousands of tasks is infeasible with existing approaches. This motivates the need for a new methodology for scalable robotics policy evaluation. In this paper, we propose dWorldEval, which uses a discrete diffusion world model as a scalable evaluation proxy for robotics policies. Specifically, dWorldEval maps all modalities - including vision, language, and robotic actions - into a unified token space, modeling them via a single transformer-based denoising network. In this paper, we propose dWorldEval, using a discrete diffusion world model as a scalable evaluation proxy for robotics policy. Specifically, it maps all modalities, including vision, language, and robotics action into a unified token space, then denoises them with a single transformer network. Building on this architecture, we employ a sparse keyframe memory to maintain spatiotemporal consistency. We also introduce a progress token that indicates the degree of task completion. At inference, the model jointly predicts future observations and progress token, allowing automatically determine success when the progress reaches 1. Extensive experiments demonstrate that dWorldEval significantly outperforms previous approaches, i.e., WorldEval, Ctrl-World, and WorldGym, on LIBERO, RoboTwin, and multiple real-robot tasks. It paves the way for a new architectural paradigm in building world simulators for robotics evaluation at scale.