MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models
作者: Tianzhuo Yang, Zihan Shen, Zirui Mi, Zhaoyi Zhang, Jiayi Zhou, Jiaming Ji, Juntao Dai, Jiawei Chen, Boyuan Chen, Yaodong Yang
分类: cs.AI
发布日期: 2026-05-28
💡 一句话要点
MiraBench:评估机器人世界模型中动作条件下的可靠性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 机器人世界模型 动作条件可靠性 基准测试 物理一致性 动作跟随 乐观偏差 机器人学习 模型评估
📋 核心要点
- 现有机器人世界模型评估侧重视觉逼真度,忽略了动作条件下的物理合理性、动作跟随和失败校准。
- MiraBench通过分层基准,从物理一致性、动作跟随保真度和乐观偏差检测三个层面评估动作条件可靠性。
- 实验表明,视觉逼真度不能代表动作保真度,模型规模增加不一定提升动作跟随,乐观偏差普遍存在。
📝 摘要(中文)
动作条件世界模型越来越多地被用作机器人学习的可扩展模拟器,但目前的评估提供的证据有限,无法证明它们在动作条件下的预测是可靠的。现有的基准主要强调视觉逼真度,但尚不清楚预测的未来是否在物理上是合理的,是否忠实于指令动作,以及在动作不应成功时是否校准到失败。我们引入了MiraBench,这是一个分层基准,它将动作条件可靠性定义为机器人世界模型的核心评估目标。MiraBench将此目标分解为三个渐进式要求的级别:物理一致性,评估参考无关的物理一致性;动作跟随保真度,衡量预测是否尊重任务相关的动作输入;以及乐观偏差检测,探测在失败诱导动作下预测成功结果的趋势。为了支持此评估,我们整理了一个人工注释语料库,其中包含跨任务、失败类别和领先世界模型的超过16,000个判断。我们评估了12个代表性模型配置,涵盖向量条件机器人世界模型、文本条件生成世界模型、开源系统、闭源系统和多个模型规模。通过从外观到动作条件可靠性的评估转变,MiraBench为评估和改进机器人世界模型作为忠实模拟器提供了诊断基础。
🔬 方法详解
问题定义:现有机器人世界模型的评估主要关注视觉逼真度,缺乏对动作条件可靠性的深入评估。这意味着模型可能生成视觉上逼真的场景,但无法准确预测在特定动作下的物理行为,也无法识别会导致失败的动作。这种不足阻碍了机器人学习算法在模拟环境中训练后,能够可靠地部署到真实世界中。
核心思路:MiraBench的核心思路是将动作条件可靠性作为机器人世界模型评估的核心指标,并将其分解为三个可量化的层次:物理一致性、动作跟随保真度和乐观偏差检测。通过这三个层次的评估,可以全面了解模型在动作条件下的预测能力,从而诊断模型的不足之处。
技术框架:MiraBench采用分层评估框架,包含以下三个主要模块: 1. 物理一致性评估:评估模型预测的未来状态是否符合基本的物理定律,例如重力、碰撞等。该模块采用参考无关的评估方法,即不需要真实世界的ground truth数据。 2. 动作跟随保真度评估:评估模型预测的未来状态是否与输入的动作指令相符。该模块需要评估模型是否能够正确理解动作指令,并将其转化为相应的物理行为。 3. 乐观偏差检测:评估模型是否倾向于预测成功的动作结果,即使在实际情况下该动作很可能会失败。该模块旨在发现模型中的乐观偏差,并鼓励模型更加保守和现实地预测未来状态。
关键创新:MiraBench的关键创新在于其对动作条件可靠性的明确定义和分层评估框架。与以往侧重视觉逼真度的评估方法不同,MiraBench更加关注模型在动作条件下的预测能力,这对于机器人学习算法的实际应用至关重要。此外,MiraBench还提供了一个人工注释的语料库,用于支持评估过程。
关键设计:MiraBench的关键设计包括: 1. 分层评估指标:物理一致性、动作跟随保真度和乐观偏差检测三个指标分别从不同的角度评估动作条件可靠性,形成一个全面的评估体系。 2. 人工注释语料库:包含超过16,000个判断,涵盖各种任务、失败类别和世界模型,为评估提供了可靠的数据基础。 3. 参考无关的物理一致性评估:避免了对真实世界ground truth数据的依赖,使得评估更加灵活和可扩展。
🖼️ 关键图片
📊 实验亮点
MiraBench评估了12个代表性模型配置,涵盖向量条件机器人世界模型、文本条件生成世界模型、开源和闭源系统以及不同模型规模。实验结果表明,视觉逼真度与动作保真度之间没有必然联系,增加模型规模并不一定能提高动作跟随能力,并且乐观偏差在当前系统中普遍存在。这些发现为改进机器人世界模型提供了重要的指导。
🎯 应用场景
MiraBench可用于评估和改进机器人世界模型,提高其在机器人学习中的应用价值。通过诊断模型在动作条件下的预测能力,可以帮助研究人员开发更可靠、更有效的机器人学习算法。此外,MiraBench还可以用于比较不同世界模型的性能,促进该领域的发展。潜在的应用领域包括自动驾驶、工业自动化、医疗机器人等。
📄 摘要(原文)
Action-conditioned world models are increasingly used as scalable simulators for robot learning, yet current evaluations provide limited evidence that their predictions are reliable under the actions they condition on. Existing benchmarks largely emphasize visual fidelity, leaving unclear whether predicted futures are physically plausible, faithful to commanded actions, and calibrated to failure when actions should not succeed. We introduce \textsc{MiraBench}, a hierarchical benchmark that defines \emph{action-conditioned reliability} as a core evaluation target for robotic world models. MiraBench decomposes this target into three progressively demanding levels: \emph{Physics Adherence}, which evaluates reference-free physical consistency; \emph{Action-Following Fidelity}, which measures whether predictions respect task-relevant action inputs; and \emph{Optimism Bias Detection}, which probes the tendency to predict successful outcomes under failure-inducing actions. To support this evaluation, we curate a human-annotated corpus with over 16,000 judgments across tasks, failure categories, and leading world models. We evaluate 12 representative model configurations spanning vector-conditioned robotic world models, text-conditioned generative world models, open-weight systems, closed-source systems, and multiple model scales. Across this broad model landscape, MiraBench reveals three central findings: visual fidelity is a poor proxy for action fidelity; increasing model scale does not reliably improve action following; and optimism bias is pervasive across current systems. By shifting evaluation from appearance to action-conditioned reliability, MiraBench provides a diagnostic foundation for assessing and improving robotic world models as faithful simulators.