DreamJourney: Perpetual View Generation with Video Diffusion Models
作者: Bo Pan, Yang Chen, Yingwei Pan, Ting Yao, Wei Chen, Tao Mei
分类: cs.CV
发布日期: 2025-06-21
💡 一句话要点
DreamJourney:利用视频扩散模型实现具有动态物体的无限视角生成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无限视角生成 视频扩散模型 动态场景 多模态融合 3D重建 场景模拟 相机轨迹 物体动画
📋 核心要点
- 现有无限视角生成方法依赖2D扩散模型,缺乏3D感知,难以处理动态场景。
- DreamJourney提出两阶段框架,利用视频扩散模型模拟世界,实现相机运动和物体动态的无限视角生成。
- 实验结果表明,DreamJourney在视角一致性和视觉质量上优于现有方法,实现了更真实的动态场景生成。
📝 摘要(中文)
无限视角生成旨在仅从单个输入图像合成对应于任意相机轨迹的长期视频。现有方法通常利用预训练的文本到图像扩散模型来合成相机移动过程中先前未见区域的新内容。然而,底层2D扩散模型缺乏3D感知,导致扭曲伪影。此外,它们仅限于生成静态3D场景的视图,忽略了捕获动态4D世界中的物体运动。为了缓解这些问题,我们提出了DreamJourney,这是一个两阶段框架,它利用视频扩散模型的场景模拟能力来触发一个新的无限场景视角生成任务,该任务同时包含相机移动和物体动态。具体来说,在第一阶段,DreamJourney首先将输入图像提升到3D点云,并从特定的相机轨迹渲染一系列局部图像。然后,利用视频扩散模型作为生成先验来完成缺失区域并增强序列中的视觉连贯性,从而生成符合3D场景和相机轨迹的跨视角一致视频。同时,我们引入了两种简单而有效的策略(提前停止和视角填充)来进一步稳定生成过程并提高视觉质量。接下来,在第二阶段,DreamJourney利用多模态大型语言模型来生成描述当前视图中物体运动的文本提示,并使用视频扩散模型来为当前视图添加物体运动动画。第一阶段和第二阶段被递归地重复,从而实现无限的动态场景视角生成。大量的实验表明,我们的DreamJourney在定量和定性方面都优于最先进的方法。
🔬 方法详解
问题定义:无限视角生成旨在从单张图像生成任意相机轨迹下的连续视频。现有方法主要依赖于预训练的文本到图像扩散模型,但由于缺乏3D感知能力,生成的视频在视角变换时容易出现扭曲和不一致的伪影。此外,这些方法通常只能处理静态场景,无法模拟场景中物体的动态运动,限制了其应用范围。
核心思路:DreamJourney的核心思路是利用视频扩散模型强大的世界模拟能力,将无限视角生成问题分解为两个阶段:静态场景生成和动态物体动画。通过交替执行这两个阶段,可以逐步扩展场景并添加动态元素,从而实现具有相机运动和物体动态的无限视角生成。这种分解方式能够更好地利用视频扩散模型的时序建模能力,提高生成视频的真实性和连贯性。
技术框架:DreamJourney包含两个主要阶段:第一阶段是静态场景生成,第二阶段是动态物体动画。在第一阶段,首先将输入图像转换为3D点云,并根据给定的相机轨迹渲染一系列局部图像。然后,利用视频扩散模型补全缺失区域并增强视觉一致性,生成符合3D场景和相机轨迹的跨视角一致视频。为了稳定生成过程并提高视觉质量,还引入了提前停止和视角填充两种策略。在第二阶段,利用多模态大型语言模型生成描述当前视图中物体运动的文本提示,并使用视频扩散模型为当前视图添加物体运动动画。这两个阶段循环迭代,实现无限的动态场景视角生成。
关键创新:DreamJourney的关键创新在于将无限视角生成问题与视频扩散模型的世界模拟能力相结合,并提出了一个两阶段的生成框架,能够同时处理相机运动和物体动态。此外,引入的提前停止和视角填充策略有效地稳定了生成过程,提高了视觉质量。利用多模态大语言模型生成运动描述,进一步提升了物体动画的真实性和可控性。
关键设计:在第一阶段,3D点云的质量和相机轨迹的设计对生成结果至关重要。提前停止策略通过监控生成过程中的视觉质量,在出现伪影时提前终止生成,避免了错误的累积。视角填充策略通过在局部图像周围填充已知区域的信息,减少了视频扩散模型需要补全的区域,提高了生成效率和质量。在第二阶段,多模态大语言模型的选择和文本提示的生成方式直接影响了物体动画的真实性和多样性。视频扩散模型的训练数据和超参数设置也需要仔细调整,以保证生成视频的流畅性和自然性。
📊 实验亮点
实验结果表明,DreamJourney在视角一致性和视觉质量方面显著优于现有方法。通过定量指标和用户研究,证明了DreamJourney能够生成更真实、更连贯的动态场景视频。与现有方法相比,DreamJourney在生成具有复杂物体运动的场景时表现出更强的鲁棒性和可控性。
🎯 应用场景
DreamJourney在虚拟现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于生成逼真的虚拟场景,为用户提供沉浸式的体验。在游戏开发中,可以根据玩家的视角动态生成游戏场景,提高游戏的可玩性和趣味性。在电影制作中,可以用于创建复杂的视觉特效,降低制作成本。
📄 摘要(原文)
Perpetual view generation aims to synthesize a long-term video corresponding to an arbitrary camera trajectory solely from a single input image. Recent methods commonly utilize a pre-trained text-to-image diffusion model to synthesize new content of previously unseen regions along camera movement. However, the underlying 2D diffusion model lacks 3D awareness and results in distorted artifacts. Moreover, they are limited to generating views of static 3D scenes, neglecting to capture object movements within the dynamic 4D world. To alleviate these issues, we present DreamJourney, a two-stage framework that leverages the world simulation capacity of video diffusion models to trigger a new perpetual scene view generation task with both camera movements and object dynamics. Specifically, in stage I, DreamJourney first lifts the input image to 3D point cloud and renders a sequence of partial images from a specific camera trajectory. A video diffusion model is then utilized as generative prior to complete the missing regions and enhance visual coherence across the sequence, producing a cross-view consistent video adheres to the 3D scene and camera trajectory. Meanwhile, we introduce two simple yet effective strategies (early stopping and view padding) to further stabilize the generation process and improve visual quality. Next, in stage II, DreamJourney leverages a multimodal large language model to produce a text prompt describing object movements in current view, and uses video diffusion model to animate current view with object movements. Stage I and II are repeated recurrently, enabling perpetual dynamic scene view generation. Extensive experiments demonstrate the superiority of our DreamJourney over state-of-the-art methods both quantitatively and qualitatively. Our project page: https://dream-journey.vercel.app.