StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation
作者: Shangjin Zhai, Zhichao Ye, Jialin Liu, Weijian Xie, Jiaqi Hu, Zhen Peng, Hua Xue, Danpeng Chen, Xiaomeng Wang, Lei Yang, Nan Wang, Haomin Liu, Guofeng Zhang
分类: cs.CV
发布日期: 2025-01-10 (更新: 2025-04-13)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
StarGen:基于视频扩散模型的时空自回归框架,实现可控可扩展的场景生成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: 场景生成 视频扩散模型 时空自回归 长程一致性 姿态控制
📋 核心要点
- 现有大模型推理受计算资源限制,难以生成长程一致的场景。
- StarGen利用预训练视频扩散模型,通过时空自回归方式生成长程场景,保证一致性。
- 实验表明,StarGen在可扩展性、保真度和姿态精度方面优于现有方法。
📝 摘要(中文)
本文提出了一种名为StarGen的新框架,它采用预训练的视频扩散模型,以自回归的方式进行长程场景生成。每个视频片段的生成都以空间相邻图像的3D扭曲和先前生成的片段在时间上重叠的图像为条件,从而提高了长程场景生成中的时空一致性,并实现了精确的姿态控制。这种时空条件与各种输入条件兼容,从而促进了各种任务,包括稀疏视图插值、永久视图生成和布局条件下的城市生成。定量和定性评估表明,与最先进的方法相比,StarGen具有卓越的可扩展性、保真度和姿态准确性。
🔬 方法详解
问题定义:现有的大规模场景重建和生成模型,由于计算资源的限制,每次推理只能处理小范围区域,这使得生成具有长程一致性的场景变得非常困难。尤其是在需要精确姿态控制的情况下,如何保证生成场景的时空一致性是一个挑战。
核心思路:StarGen的核心思路是利用预训练的视频扩散模型,并以自回归的方式逐步生成场景。通过将空间相邻图像的3D扭曲和时间上重叠的图像作为条件,来保证生成视频片段之间的时空一致性。这种方法允许模型在保持局部细节的同时,也能生成全局一致的场景。
技术框架:StarGen框架主要包含以下几个阶段:1) 初始化: 从给定的初始图像或布局开始。2) 视频片段生成: 使用预训练的视频扩散模型生成视频片段,该过程以空间相邻图像的3D扭曲和时间上重叠的图像为条件。3) 时空对齐: 将新生成的视频片段与已生成的片段进行时空对齐,确保一致性。4) 迭代: 重复步骤2和3,直到生成所需的整个场景。
关键创新:StarGen的关键创新在于其时空自回归的生成方式,以及利用3D扭曲和时间重叠图像作为条件来保证时空一致性。与传统的单帧生成方法相比,StarGen能够生成更长程、更一致的场景。此外,该框架与多种输入条件兼容,可以支持不同的任务。
关键设计:在视频片段生成阶段,使用了预训练的视频扩散模型,该模型能够生成高质量的视频片段。为了保证时空一致性,使用了3D扭曲技术将空间相邻的图像对齐,并利用时间重叠的图像作为额外的条件。损失函数方面,可能使用了对抗损失、感知损失等来提高生成图像的质量和真实感。具体的网络结构细节和参数设置在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
StarGen在多个任务上进行了评估,包括稀疏视图插值、永久视图生成和布局条件下的城市生成。实验结果表明,StarGen在可扩展性、保真度和姿态精度方面均优于现有方法。具体的性能数据和提升幅度需要在论文中查找(未知)。
🎯 应用场景
StarGen具有广泛的应用前景,包括虚拟现实、增强现实、游戏开发、电影制作等领域。它可以用于生成逼真的虚拟环境,创建沉浸式的用户体验。此外,StarGen还可以用于城市规划和建筑设计,帮助设计师可视化未来的城市景观。该研究的实际价值在于提供了一种可扩展、可控的场景生成方法,为各种应用场景提供了强大的工具。
📄 摘要(原文)
Recent advances in large reconstruction and generative models have significantly improved scene reconstruction and novel view generation. However, due to compute limitations, each inference with these large models is confined to a small area, making long-range consistent scene generation challenging. To address this, we propose StarGen, a novel framework that employs a pre-trained video diffusion model in an autoregressive manner for long-range scene generation. The generation of each video clip is conditioned on the 3D warping of spatially adjacent images and the temporally overlapping image from previously generated clips, improving spatiotemporal consistency in long-range scene generation with precise pose control. The spatiotemporal condition is compatible with various input conditions, facilitating diverse tasks, including sparse view interpolation, perpetual view generation, and layout-conditioned city generation. Quantitative and qualitative evaluations demonstrate StarGen's superior scalability, fidelity, and pose accuracy compared to state-of-the-art methods. Project page: https://zju3dv.github.io/StarGen.