ST-Gen4D: Embedding 4D Spatiotemporal Cognition into World Model for 4D Generation

📄 arXiv: 2605.07390v1 📥 PDF

作者: Haonan Wang, Hanyu Zhou, Tao Gu, Luxin Yan

分类: cs.CV

发布日期: 2026-05-08


💡 一句话要点

提出ST-Gen4D框架,通过引入4D时空认知世界模型实现高一致性的4D生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 4D生成 世界模型 时空认知 高斯溅射 潜在扩散模型 多模态融合

📋 核心要点

  1. 现有4D生成模型仅关注全局外观一致性,缺乏对物理世界局部动态拓扑的建模,导致生成结果在时空规律性上存在不足。
  2. 提出ST-Gen4D框架,通过构建包含全局外观图与局部动态图的4D认知图,将时空认知融入生成过程,实现结构与拓扑的强约束。
  3. 实验表明,该方法在3D与4D生成任务中表现出色,通过引入ST-4D数据集验证了模型在复杂动态场景下的生成质量与一致性。

📝 摘要(中文)

生成式模型在2D视频生成领域已取得显著进展,但在物理世界中因缺乏4D时空尺度而面临挑战。现有4D生成模型通常直接嵌入宏观尺度约束以增强整体时空一致性,但这仅能保证全局外观连贯,却无法揭示物理世界的局部动态。本文提出ST-Gen4D,这是一个基于4D时空认知世界模型的生成框架。该模型通过四项关键设计实现:1) 多模态时空表示编码;2) 构建全局外观图与局部动态图,并通过语义桥接融合为4D认知图;3) 利用世界模型基于认知进行时空推理;4) 以认知作为条件引导潜在扩散模型进行4D高斯生成。通过将4D内在认知与生成先验深度融合,该模型确保了4D生成的结构合理性与拓扑一致性。此外,本文还构建了ST-4D数据集,实验证明了ST-Gen4D在3D和4D生成任务中的优越性。

🔬 方法详解

问题定义:论文旨在解决现有4D生成模型在物理世界动态建模上的局限性。现有方法多依赖宏观约束,导致生成内容虽外观连贯但缺乏局部物理动态的拓扑一致性。

核心思路:核心思想是将“4D时空认知”引入生成过程。通过显式建模全局外观结构与局部动态拓扑,使模型不仅能“看”到外观,还能“理解”时空演变规律,从而引导生成过程。

技术框架:框架包含四个阶段:首先进行多模态时空表示编码;其次构建全局外观图与局部动态图,并通过语义桥接融合生成4D认知图;接着利用世界模型进行未来状态推理;最后将认知图作为条件,引导潜在扩散模型生成4D高斯表示。

关键创新:最重要的创新在于将“认知图”作为生成先验的桥梁。与直接回归像素或高斯参数不同,该方法通过认知图显式解耦了外观与动态,确保了生成结果符合物理时空规律。

关键设计:关键技术细节包括语义桥接融合机制(Semantic-bridged spatiotemporal fusion),用于对齐不同模态的特征;以及基于4D高斯溅射(4D Gaussian Splatting)的生成后端,实现了高效且高质量的动态场景渲染。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ST-Gen4D在多项基准测试中展现了优于现有SOTA方法的效果。实验结果显示,该模型在保持全局外观一致性的同时,显著提升了局部动态的拓扑合理性。通过在自建的ST-4D数据集上进行验证,模型在结构保真度与时空连贯性指标上均有显著提升,证明了其在复杂动态生成任务中的鲁棒性。

🎯 应用场景

该研究在影视特效制作、虚拟现实(VR/AR)内容生成、机器人仿真环境构建以及数字孪生领域具有重要价值。通过生成具有物理一致性的4D动态资产,可显著降低高质量动态场景的建模成本,并提升虚拟交互的真实感与沉浸感。

📄 摘要(原文)

Generative models have achieved success in producing apparently coherent 2D videos, but remain challenging in the physical world due to lack of 4D spatiotemporal scale. Typically, existing 4D generative models directly embed macro scale constraints to enhance overall spatiotemporal consistency. However, these methods only ensure global appearance coherence and fail to reveal the local dynamics of the physical world. Our insight is that global appearance structure and local dynamic topology empower 4D spatiotemporal cognition, thereby enabling 4D generation with spatiotemporal regularities. In this work, we propose ST-Gen4D, a 4D generation framework with 4D spatiotemporal cognition-based world model. Our model is guided by four key designs: 1) Spatiotemporal representation. We encode various modalities into multiple representations as a feature basis. 2) Spatiotemporal cognition. We sculpture these representations into global appearance graph and local dynamic graph, and fuse them via semantic-bridged spatiotemporal fusion to obtain a 4D cognition graph. 3) Spatiotemporal reasoning. We utilize a world model to derive future state based on the 4D cognition. 4) Spatiotemporal generation. We leverage the derived cognition as condition to guide latent diffusion for 4D Gaussian generation. By deeply integrating 4D intrinsic cognition with generative priors, our model guarantees the structural rationality and topological consistency of 4D generation. Moreover, we propose ST-4D datasets by aggregating public 4D datasets and self-built subset. Extensive experiments demonstrate the superiority of our ST-Gen4D across 3D and 4D generation tasks.