WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World
作者: Ao Liang, Lingdong Kong, Tianyi Yan, Hongsi Liu, Wesley Yang, Ziqi Huang, Wei Yin, Jialong Zuo, Yixuan Hu, Dekai Zhu, Dongyue Lu, Youquan Liu, Guangfeng Jiang, Linfeng Li, Xiangtai Li, Long Zhuo, Lai Xing Ng, Benoit R. Cottereau, Changxin Gao, Liang Pan, Wei Tsang Ooi, Ziwei Liu
分类: cs.CV
发布日期: 2025-12-11
备注: Preprint; 80 pages, 37 figures, 29 tables; Project Page at https://worldbench.github.io/worldlens
💡 一句话要点
WorldLens:真实驾驶世界模型全面评估基准,衡量生成世界的真实行为
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 世界模型 驾驶场景 评估基准 具身智能 自动驾驶
📋 核心要点
- 现有驾驶世界模型评估缺乏统一标准,难以衡量几何一致性、物理合理性和行为可靠性。
- 提出WorldLens基准,从生成、重建、动作跟随、下游任务和人类偏好五个方面全面评估世界模型。
- 构建WorldLens-26K数据集和WorldLens-Agent评估模型,实现可扩展、可解释的评分,对齐客观指标与人类判断。
📝 摘要(中文)
生成式世界模型正在重塑具身智能,使智能体能够合成逼真的4D驾驶环境。然而,这些环境在视觉上令人信服,但在物理或行为上常常失败。尽管进展迅速,但该领域仍然缺乏统一的方法来评估生成的世界是否保留了几何结构、遵守物理定律或支持可靠的控制。我们引入了WorldLens,这是一个全方位的基准,用于评估模型在其生成的世界中构建、理解和行为的能力。它涵盖五个方面——生成、重建、动作跟随、下游任务和人类偏好——共同涵盖视觉真实感、几何一致性、物理合理性和功能可靠性。在这些维度上,没有现有的世界模型能够普遍擅长:纹理强的模型常常违反物理定律,而几何稳定的模型缺乏行为保真度。为了使客观指标与人类判断对齐,我们进一步构建了WorldLens-26K,这是一个大规模的人工标注视频数据集,包含数值评分和文本理由,并开发了WorldLens-Agent,这是一个从这些标注中提炼出来的评估模型,以实现可扩展的、可解释的评分。基准、数据集和智能体共同构成了一个统一的生态系统,用于衡量世界的保真度——标准化未来模型不仅要根据它们看起来有多真实来判断,还要根据它们表现得有多真实来判断。
🔬 方法详解
问题定义:现有生成式世界模型在驾驶场景中,虽然视觉效果逼真,但在几何一致性、物理合理性和行为控制方面存在不足,缺乏统一的评估标准来衡量模型的真实行为能力。现有方法难以兼顾视觉真实感和物理/行为的合理性,导致模型在实际应用中表现不佳。
核心思路:WorldLens的核心思路是通过构建一个全面的评估基准,从多个维度衡量世界模型的性能,包括生成质量、重建精度、动作跟随能力、下游任务表现以及人类偏好。通过多方面的评估,能够更准确地了解模型的优缺点,并指导模型改进。
技术框架:WorldLens评估框架包含五个主要模块:1) 生成 (Generation):评估模型生成环境的视觉真实感;2) 重建 (Reconstruction):评估模型从图像重建3D场景的能力;3) 动作跟随 (Action-Following):评估模型预测智能体执行动作后环境变化的能力;4) 下游任务 (Downstream Task):评估模型在下游任务(如路径规划)中的表现;5) 人类偏好 (Human Preference):通过人工评估来衡量模型的整体真实感。此外,还构建了WorldLens-26K数据集用于训练WorldLens-Agent,该Agent可以自动评估视频并提供数值评分和文本解释。
关键创新:WorldLens的关键创新在于其全面性,它不仅关注视觉真实感,还关注几何一致性、物理合理性和行为可靠性。此外,WorldLens-Agent的引入使得评估过程更加高效和可扩展,并能够提供可解释的评分结果。WorldLens-26K数据集为训练和评估世界模型提供了高质量的数据支持。
关键设计:WorldLens-26K数据集包含大量人工标注的驾驶场景视频,每个视频都包含数值评分和文本解释,用于训练WorldLens-Agent。WorldLens-Agent采用蒸馏学习的方法,从人类标注中学习评估标准,并使用Transformer架构进行建模。具体的技术细节(如损失函数、网络结构等)在论文中可能包含更详细的描述,但摘要中未明确提及。
🖼️ 关键图片
📊 实验亮点
实验结果表明,没有现有的世界模型能够在WorldLens的所有维度上都表现出色。一些模型在视觉真实感方面表现良好,但在物理合理性方面存在缺陷;而另一些模型在几何一致性方面表现出色,但在行为保真度方面存在不足。WorldLens-Agent能够有效地预测人类评分,并提供可解释的评估结果。
🎯 应用场景
WorldLens可应用于自动驾驶、机器人导航、游戏开发等领域。通过全面评估世界模型的性能,可以帮助开发者选择和改进模型,提高智能体在复杂环境中的适应性和可靠性。该基准的标准化有助于推动世界模型领域的发展,并促进更真实、更智能的具身智能系统的构建。
📄 摘要(原文)
Generative world models are reshaping embodied AI, enabling agents to synthesize realistic 4D driving environments that look convincing but often fail physically or behaviorally. Despite rapid progress, the field still lacks a unified way to assess whether generated worlds preserve geometry, obey physics, or support reliable control. We introduce WorldLens, a full-spectrum benchmark evaluating how well a model builds, understands, and behaves within its generated world. It spans five aspects -- Generation, Reconstruction, Action-Following, Downstream Task, and Human Preference -- jointly covering visual realism, geometric consistency, physical plausibility, and functional reliability. Across these dimensions, no existing world model excels universally: those with strong textures often violate physics, while geometry-stable ones lack behavioral fidelity. To align objective metrics with human judgment, we further construct WorldLens-26K, a large-scale dataset of human-annotated videos with numerical scores and textual rationales, and develop WorldLens-Agent, an evaluation model distilled from these annotations to enable scalable, explainable scoring. Together, the benchmark, dataset, and agent form a unified ecosystem for measuring world fidelity -- standardizing how future models are judged not only by how real they look, but by how real they behave.