The Trinity of Consistency as a Defining Principle for General World Models

📄 arXiv: 2602.23152 📥 PDF

作者: Jingxuan Wei, Siyuan Li, Yuhang Xu, Zheng Sun, Junjie Jiang, Hexuan Jin, Caijun Jia, Honghao He, Xinglong Xu, Xi bai, Chang Yu, Yumou Liu, Junnan Zhu, Xuanhe Zhou, Jintao Chen, Xiaobin Hu, Shancheng Pang, Bihui Yu, Ran He, Zhen Lei, Stan Z. Li, Conghui He, Shuicheng Yan, Cheng Tan

分类: cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出通用世界模型的“一致性三位一体”原则,并构建多帧推理与生成基准CoW-Bench。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 一致性三位一体 多模态学习 视频生成 多帧推理 基准测试 通用人工智能

📋 核心要点

  1. 现有世界模型缺乏统一的理论框架,难以保证学习、模拟和推理的有效性。
  2. 论文提出“一致性三位一体”原则,即模态、空间和时间一致性,作为通用世界模型的基础。
  3. 构建CoW-Bench基准,用于评估视频生成模型和统一多模态模型在多帧推理和生成任务上的性能。

📝 摘要(中文)

构建能够学习、模拟和推理客观物理定律的世界模型是实现通用人工智能的根本挑战。以Sora为代表的视频生成模型展示了数据驱动的缩放定律在逼近物理动态方面的潜力,而新兴的统一多模态模型(UMM)为整合感知、语言和推理提供了一种有前景的架构范式。尽管取得了这些进展,但该领域仍然缺乏一个原则性的理论框架来定义通用世界模型所需的必要属性。本文提出,世界模型必须基于一致性三位一体:模态一致性作为语义接口,空间一致性作为几何基础,以及时间一致性作为因果引擎。通过这个三方视角,我们系统地回顾了多模态学习的演变,揭示了从松散耦合的专用模块到统一架构的轨迹,这些架构能够协同涌现内部世界模拟器。为了补充这个概念框架,我们引入了CoW-Bench,这是一个以多帧推理和生成场景为中心的基准。CoW-Bench在统一的评估协议下评估视频生成模型和UMM。我们的工作为通用世界模型建立了一条原则性的途径,阐明了当前系统的局限性以及未来进步的架构要求。

🔬 方法详解

问题定义:当前世界模型的研究缺乏一个统一的理论框架,导致模型在学习、模拟和推理物理世界规律时存在困难。现有的模型往往是针对特定任务设计的,缺乏通用性和泛化能力,难以应对复杂场景下的推理和预测。

核心思路:论文的核心思路是将世界模型的能力归结为三个关键的一致性原则:模态一致性、空间一致性和时间一致性。模态一致性保证模型能够理解和关联不同模态的信息;空间一致性保证模型能够理解和模拟物理世界的几何结构;时间一致性保证模型能够理解和预测物理世界的因果关系。通过满足这三个一致性,模型可以更好地学习和模拟物理世界的规律。

技术框架:论文提出了一个概念框架,强调了“一致性三位一体”的重要性。同时,论文构建了一个新的基准测试CoW-Bench,用于评估模型在多帧推理和生成任务上的性能。CoW-Bench包含多种场景,旨在全面评估模型在模态、空间和时间一致性方面的能力。该框架并未提出具体的模型架构,而是为未来世界模型的设计提供了指导原则。

关键创新:论文的关键创新在于提出了“一致性三位一体”原则,这为通用世界模型的设计提供了一个新的视角。与以往侧重于特定任务或模型架构的研究不同,该论文强调了模型需要满足的基本属性,从而为未来的研究指明了方向。CoW-Bench基准的构建也为评估世界模型的性能提供了一个统一的平台。

关键设计:论文主要贡献在于概念框架和基准测试,没有涉及具体的模型参数设置或网络结构设计。CoW-Bench基准的设计考虑了多种场景,旨在全面评估模型在模态、空间和时间一致性方面的能力。具体的评估指标包括生成图像的质量、推理的准确性等。论文鼓励未来的研究者基于“一致性三位一体”原则设计新的世界模型,并在CoW-Bench上进行评估。

📊 实验亮点

论文提出了“一致性三位一体”原则,为通用世界模型的设计提供了理论指导。同时,构建了CoW-Bench基准,为评估世界模型的性能提供了一个统一的平台。虽然论文没有提供具体的性能数据,但CoW-Bench的构建为未来的研究提供了重要的工具,可以促进世界模型领域的快速发展。

🎯 应用场景

该研究成果可应用于机器人、自动驾驶、游戏开发等领域。通过构建更强大的世界模型,机器人可以更好地理解和适应周围环境,从而实现更智能的决策和行动。自动驾驶系统可以更准确地预测交通状况,提高安全性。游戏开发者可以创造更逼真的游戏世界,提升用户体验。未来,该研究有望推动通用人工智能的发展。

📄 摘要(原文)

The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.