Is Your Driving World Model an All-Around Player?
作者: Lingdong Kong, Ao Liang, Tianyi Yan, Hongsi Liu, Wesley Yang, Ziqi Huang, Xian Sun, Wei Yin, Jialong Zuo, Yixuan Hu, Dekai Zhu, Dongyue Lu, Youquan Liu, Guangfeng Jiang, Linfeng Li, Xiangtai Li, Long Zhuo, Lai Xing Ng, Benoit R. Cottereau, Changxin Gao, Liang Pan, Wei Tsang Ooi, Ziwei Liu
分类: cs.CV, cs.RO
发布日期: 2026-05-11
备注: CVPR 2026 VideoWorldModel Workshop; Project Page at https://worldbench.github.io/worldlens GitHub at https://github.com/worldbench/WorldLens
💡 一句话要点
提出WorldLens基准与评估体系,全面量化自动驾驶世界模型的物理与行为保真度
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 自动驾驶 世界模型 基准测试 多模态评估 闭环仿真 人类偏好对齐
📋 核心要点
- 现有驾驶世界模型评估局限于视觉外观,忽视了物理规律与闭环行为的保真度,导致模型在实际驾驶任务中表现不一致。
- 提出WorldLens统一基准,通过多维度指标量化模型表现,并构建WorldLens-26K人类偏好数据集与WorldLens-Agent自动评估器。
- 实验表明现有模型难以兼顾视觉与物理一致性,最强模型在人类真实感评分中仅获得2-3分(满分10分),揭示了领域内的巨大提升空间。
📝 摘要(中文)
当前的自动驾驶世界模型虽能生成逼真的行车视频,但缺乏统一的评估标准。部分模型视觉纹理逼真却违背物理规律,另一些模型虽具备几何一致性,但在闭环规划任务中表现不佳。为此,本文提出了WorldLens,这是一个涵盖像素质量、4D几何、闭环驾驶及人类感知对齐等五个维度、24个标准化指标的统一基准。通过对六种代表性模型的评估,研究发现现有模型在多维度上存在显著短板,人类真实感评分普遍较低。此外,本文还贡献了包含2.6万条人类偏好标注的WorldLens-26K数据集,并训练了WorldLens-Agent作为可解释的自动评估工具,旨在推动世界模型从单纯的视觉生成向物理与行为保真度演进。
🔬 方法详解
问题定义:当前驾驶世界模型评估存在“视觉与行为脱节”的痛点。现有方法多关注生成视频的像素级逼真度,却忽略了模型在闭环规划、几何约束及物理交互方面的表现,导致模型在真实驾驶场景中难以落地。
核心思路:构建一个多维度的综合评估生态系统。通过将视觉质量、几何一致性、闭环驾驶能力与人类感知对齐相结合,从多个侧面全方位审视世界模型的“全能性”,以弥补单一指标评估的局限性。
技术框架:WorldLens框架包含三个核心组件:一是涵盖5大维度、24个指标的标准化基准;二是WorldLens-26K人类偏好数据集,提供高质量的评分与文本解释;三是WorldLens-Agent,利用多模态大模型蒸馏人类判断,实现可扩展且具备可解释性的自动化评估流程。
关键创新:首次将“闭环驾驶行为”与“人类感知对齐”纳入世界模型评估体系。通过引入WorldLens-Agent,解决了传统自动评估指标(如PSNR、SSIM)无法捕捉复杂物理逻辑和人类主观真实感的问题。
关键设计:采用了分层评估策略,将定量指标(如几何投影误差、规划轨迹偏差)与定性指标(人类偏好评分)进行加权融合。WorldLens-Agent基于人类标注数据进行微调,能够输出针对模型生成结果的详细诊断报告,从而实现对模型缺陷的精准定位。
🖼️ 关键图片
📊 实验亮点
实验评估了六种主流世界模型,结果显示无单一模型能在所有维度上表现优异。定量分析揭示了“纹理与几何”的权衡困境,且最强模型在人类真实感评分中仅获2-3分(满分10分)。WorldLens-Agent在评估一致性上与人类专家高度相关,证明了其作为高效、可解释评估工具的有效性。
🎯 应用场景
该研究可广泛应用于自动驾驶仿真训练、端到端自动驾驶算法的验证以及生成式AI模型的性能调优。通过WorldLens基准,开发者能更准确地识别模型在物理一致性或决策逻辑上的缺陷,从而加速高保真、高可靠性世界模型的研发,为自动驾驶系统的安全部署提供强有力的评估支撑。
📄 摘要(原文)
Today's driving world models can generate remarkably realistic dash-cam videos, yet no single model excels universally. Some generate photorealistic textures but violate basic physics; others maintain geometric consistency but fail when subjected to closed-loop planning. This disconnect exposes a critical gap: the field evaluates how real generated worlds appear, but rarely whether they behave realistically. We introduce WorldLens, a unified benchmark that measures world-model fidelity across the full spectrum, from pixel quality and 4D geometry to closed-loop driving and human perceptual alignment, through five complementary aspects and 24 standardized dimensions. Our evaluation of six representative models reveals that no existing approach dominates across all axes: texture-rich models violate geometry, geometry-aware models lack behavioral fidelity, and even the strongest performers achieve only 2-3 out of 10 on human realism ratings. To bridge algorithmic metrics with human perception, we further contribute WorldLens-26K, a 26,808-entry human-annotated preference dataset pairing numerical scores with textual rationales, and WorldLens-Agent, a vision-language evaluator distilled from these judgments that enables scalable, explainable auto-assessment. Together, the benchmark, dataset, and agent form a unified ecosystem for assessing generated worlds not merely by visual appeal, but by physical and behavioral fidelity.