World Modeling with Probabilistic Structure Integration

📄 arXiv: 2509.09737v1 📥 PDF

作者: Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-09-10


💡 一句话要点

提出概率结构集成(PSI),用于学习可控且灵活提示的世界模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 世界模型 概率图模型 因果推断 自回归模型 视频预测 结构化学习 零样本学习

📋 核心要点

  1. 现有世界模型在可控性和灵活性方面存在不足,难以有效利用数据中的潜在结构。
  2. PSI通过概率预测、结构提取和集成循环,将提取的中间结构作为新的token类型,持续增强模型能力。
  3. 实验表明,PSI在视频预测、理解和结构化信息提取方面表现出色,并支持预测改进的循环。

📝 摘要(中文)

本文提出了一种名为概率结构集成(PSI)的系统,用于从数据中学习具有丰富可控性和灵活提示性的世界模型。PSI包含一个三步循环:第一步,概率预测,构建数据的概率图模型Psi,形式为随机访问自回归序列模型。Psi支持完整的学习条件分布集,描述数据中任何变量对任何其他变量集的依赖关系。第二步,结构提取,展示了如何通过对Psi进行因果推断,以零样本方式提取数据中潜在的低维属性,对应于各种有意义的“中间结构”。第三步,集成,通过将这些结构转换为新的token类型,然后不断地将其混合回训练数据中作为条件信号和预测目标,从而完成循环。每个这样的循环都增强了Psi的能力,既允许它更好地建模底层数据,又创建了新的控制句柄——类似于LLM的通用提示语言。我们在1.4万亿个互联网视频数据token上训练了Psi的一个实例;我们用它来执行各种有用的视频预测和理解推断;我们提取了最先进的光流、自监督深度和对象分割;并且我们使用这些结构来支持预测改进的完整循环。

🔬 方法详解

问题定义:现有世界模型难以充分利用数据中蕴含的丰富结构信息,导致可控性和灵活性受限。尤其是在视频数据中,如何有效地提取和利用光流、深度等中间表示,并将其融入到预测模型中,是一个挑战。

核心思路:PSI的核心在于通过概率图模型学习数据中的依赖关系,并利用因果推断提取有意义的中间结构。然后,将这些结构作为新的token类型集成回模型中,从而实现模型的持续改进和可控性增强。这种循环式的学习方式使得模型能够逐步理解和利用数据中的复杂关系。

技术框架:PSI包含三个主要步骤:1) 概率预测:构建数据的概率图模型Psi,采用随机访问自回归序列模型。2) 结构提取:通过对Psi进行因果推断,以零样本方式提取数据中的低维属性,即中间结构。3) 集成:将提取的中间结构转换为新的token类型,并将其作为条件信号和预测目标,循环地混合回训练数据中。

关键创新:PSI的关键创新在于其循环式的结构集成方法,能够将提取的中间结构无缝地融入到模型中,从而实现模型的持续改进。此外,PSI采用概率图模型,能够灵活地表示数据中各种变量之间的依赖关系,并支持复杂的条件推断。

关键设计:PSI使用随机访问自回归序列模型作为其概率图模型的基础。在结构提取阶段,采用因果推断方法来识别数据中的潜在结构。在集成阶段,需要设计合适的token类型和混合策略,以确保提取的结构能够有效地融入到模型中。具体的参数设置、损失函数和网络结构等细节,论文中可能未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PSI在1.4万亿个token的互联网视频数据上进行了训练,并成功地提取了最先进的光流、自监督深度和对象分割。这些提取的结构被用于支持预测改进的完整循环,表明PSI能够有效地学习和利用数据中的潜在结构,并提升模型的性能。具体的性能数据和对比基线可能在论文正文中,此处摘要未提及。

🎯 应用场景

PSI具有广泛的应用前景,例如视频内容理解、智能监控、机器人导航等领域。通过学习视频数据中的潜在结构,PSI可以用于预测未来帧、识别场景中的对象和事件,并为机器人提供更准确的环境感知能力。此外,PSI的通用提示语言特性使其能够适应各种不同的任务需求。

📄 摘要(原文)

We present Probabilistic Structure Integration (PSI), a system for learning richly controllable and flexibly promptable world models from data. PSI consists of a three-step cycle. The first step, Probabilistic prediction, involves building a probabilistic graphical model Psi of the data, in the form of a random-access autoregressive sequence model. Psi supports a complete set of learned conditional distributions describing the dependence of any variables in the data on any other set of variables. In step 2, Structure extraction, we show how to extract underlying low-dimensional properties in the data, corresponding to a diverse set of meaningful "intermediate structures", in a zero-shot fashion via causal inference on Psi. Step 3, Integration, completes the cycle by converting these structures into new token types that are then continually mixed back into the training diet as conditioning signals and prediction targets. Each such cycle augments the capabilities of Psi, both allowing it to model the underlying data better, and creating new control handles -- akin to an LLM-like universal prompting language. We train an instance of Psi on 1.4 trillion tokens of internet video data; we use it to perform a variety of useful video prediction and understanding inferences; we extract state-of-the-art optical flow, self-supervised depth and object segmentation; and we use these structures to support a full cycle of predictive improvements.