RoboTrustBench: Benchmarking the Trustworthiness of Video World Models for Robotic Manipulation

📄 arXiv: 2606.01600v1 📥 PDF

作者: Huiqiong Li, Jiayu Wang, Zhiting Mei, Anirudha Majumdar, Jingjing Chen, Bin Zhu

分类: cs.CV, cs.CL, cs.RO

发布日期: 2026-06-01

备注: Project: https://huiqiongli.github.io/RoboTrustBench/


💡 一句话要点

提出RoboTrustBench,用于评估机器人操作中视频世界模型的可靠性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频世界模型 机器人操作 可靠性评估 基准测试 约束推理

📋 核心要点

  1. 现有视频世界模型基准主要关注安全指令下的评估,忽略了模型在复杂或异常情况下的可靠性。
  2. RoboTrustBench通过构建包含约束敏感、反事实和对抗性场景的数据集,全面评估模型的可靠性。
  3. 实验表明,现有模型在视觉连贯性方面表现良好,但在约束推理和物理交互等方面存在明显不足。

📝 摘要(中文)

本文提出了RoboTrustBench,一个用于评估视频世界模型在机器人操作中可靠性的基准。现有基准主要在有效、可行和安全的指令下评估模型,而RoboTrustBench则在四种场景下评估:正常、约束敏感、反事实和对抗性。RoboTrustBench基于真实世界的DROID episodes构建,包含1207个经过专家验证的指令-图像对,以及一个包含13个细粒度标准的六维评估协议。通过人类和MLLM评估七个代表性的视频世界模型,发现当前模型通常生成视觉上连贯的视频,但在约束推理、反事实基础、物理交互和不安全指令抑制方面存在困难。这些结果表明,视觉质量和表面级别的指令遵循不足以实现可靠的机器人视频世界建模。

🔬 方法详解

问题定义:现有视频世界模型基准主要关注模型在正常、安全指令下的表现,缺乏对模型在复杂、异常或对抗性场景下可靠性的评估。这限制了视频世界模型在实际机器人应用中的部署,因为真实世界环境往往充满不确定性和潜在风险。现有方法难以评估模型对约束的理解、反事实推理能力以及对不安全指令的抑制能力。

核心思路:RoboTrustBench的核心思路是构建一个包含多种复杂场景的数据集,并设计一套细粒度的评估指标,以全面评估视频世界模型的可靠性。通过引入约束敏感、反事实和对抗性场景,可以更有效地暴露模型在推理、泛化和安全性方面的不足。同时,结合人类评估和MLLM评估,可以更客观地评价模型的性能。

技术框架:RoboTrustBench的整体框架包括以下几个主要组成部分:1) 数据集构建:基于真实世界的DROID episodes,构建包含正常、约束敏感、反事实和对抗性四种场景的数据集。2) 评估协议:设计一个六维评估协议,包含13个细粒度标准,用于评估模型的可靠性。3) 模型评估:使用人类评估和MLLM评估相结合的方式,对七个代表性的视频世界模型进行评估。4) 结果分析:分析评估结果,揭示现有模型在不同场景下的优缺点,为未来的研究提供指导。

关键创新:RoboTrustBench的关键创新在于:1) 提出了一个更全面的可靠性评估框架,考虑了约束敏感、反事实和对抗性等复杂场景。2) 构建了一个包含专家验证的指令-图像对的数据集,保证了数据的质量和可靠性。3) 设计了一个细粒度的评估协议,可以更精确地评估模型的不同方面的性能。4) 结合人类评估和MLLM评估,提高了评估的客观性和准确性。

关键设计:RoboTrustBench的数据集构建过程中,针对约束敏感场景,设计了需要模型理解环境约束并做出相应预测的指令。针对反事实场景,设计了需要模型进行反事实推理的指令,例如“如果机器人不这样做,会发生什么?”。针对对抗性场景,设计了可能导致不安全行为的指令,例如“推倒障碍物”。评估协议中,六个维度包括:视觉质量、指令遵循、约束推理、反事实推理、物理交互和安全性。评估指标包括:视频清晰度、动作准确性、约束满足程度、反事实一致性、物理合理性和安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有视频世界模型在视觉质量和表面级别的指令遵循方面表现良好,但在约束推理、反事实基础、物理交互和不安全指令抑制方面存在明显不足。例如,在约束敏感场景下,模型的约束满足程度较低;在反事实场景下,模型的反事实一致性较差。这些结果揭示了现有模型在可靠性方面的局限性,为未来的研究提供了明确的方向。

🎯 应用场景

RoboTrustBench可用于评估和改进视频世界模型在机器人操作中的可靠性,提高机器人在复杂和不确定环境中的适应能力。这对于智能制造、自动驾驶、医疗机器人等领域具有重要意义,有助于开发更安全、更可靠的机器人系统,并最终实现更广泛的机器人应用。

📄 摘要(原文)

Video world models are increasingly used in robotic manipulation, yet existing benchmarks mostly evaluate them under valid, feasible, and safe instructions. We introduce RoboTrustBench, a benchmark for evaluating the trustworthiness of video world models under four scenarios: Normal, Constraint-Sensitive, Counterfactual, and Adversarial. Built from real-world DROID episodes, RoboTrustBench contains 1,207 expert-validated instruction-image pairs and a six-dimensional evaluation protocol with 13 fine-grained criteria. Evaluating seven representative video world models with human and MLLM assessment, we find that current models often generate visually coherent videos, but struggle with constraint reasoning, counterfactual grounding, physical interaction, and unsafe-instruction suppression. These results show that visual quality and surface-level instruction following are insufficient for trustworthy robotic video world modeling.