Generative View Stitching
作者: Chonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann
分类: cs.CV, cs.LG
发布日期: 2025-10-28 (更新: 2025-11-05)
备注: Updated acknowledgements and fixed figure visibility issue on Safari. Project website: https://andrewsonga.github.io/gvs
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出生成式视图拼接(GVS)方法,解决相机引导视频生成中的碰撞和不一致问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视频生成 扩散模型 相机引导 视图拼接 时间一致性 长程连贯性 Diffusion Forcing
📋 核心要点
- 现有自回归视频扩散模型在相机引导视频生成中易发生碰撞,导致生成崩溃,缺乏对未来信息的利用。
- GVS通过并行采样整个序列,确保生成场景与预定义相机轨迹一致,避免碰撞并保持时间一致性。
- GVS兼容现成的Diffusion Forcing模型,并引入Omni Guidance增强时间一致性,实现长程连贯性。
📝 摘要(中文)
自回归视频扩散模型能够生成稳定且与历史一致的长序列,但无法利用来自未来的条件来指导当前生成。在预定义相机轨迹的相机引导视频生成中,这种限制会导致与生成场景的碰撞,进而导致自回归快速崩溃。为了解决这个问题,我们提出了生成式视图拼接(GVS),它并行地采样整个序列,使得生成的场景忠实于预定义相机轨迹的每个部分。我们的主要贡献是一种采样算法,它将机器人规划中扩散拼接的先前工作扩展到视频生成。虽然这种拼接方法通常需要专门训练的模型,但GVS与任何使用Diffusion Forcing训练的现成视频模型兼容,我们表明Diffusion Forcing已经提供了拼接所需的必要条件。然后,我们引入了Omni Guidance,这是一种通过同时以过去和未来为条件来增强拼接中时间一致性的技术,并使我们提出的循环闭合机制能够实现长程连贯性。总的来说,GVS实现了相机引导的视频生成,该生成是稳定的、无碰撞的、帧间一致的,并且为各种预定义的相机路径闭合循环,包括奥斯卡·路透斯瓦德的不可能楼梯。结果最好在https://andrewsonga.github.io/gvs上以视频形式观看。
🔬 方法详解
问题定义:论文旨在解决相机引导视频生成中,由于自回归模型的局限性导致的碰撞和时间不一致问题。现有方法无法有效利用未来信息,使得在预定义相机轨迹下生成的视频容易与场景发生碰撞,进而导致生成质量快速下降。
核心思路:论文的核心思路是采用并行采样的方式生成整个视频序列,而非传统的自回归方式。通过这种方式,每一帧的生成都可以考虑到整个相机轨迹的信息,从而避免碰撞并保持时间一致性。这种“全局”的视角使得模型能够更好地理解场景的整体结构,并生成更连贯的视频。
技术框架:GVS的技术框架主要包含以下几个部分:1) 使用Diffusion Forcing训练的视频扩散模型作为基础生成器;2) 扩散拼接算法,用于并行采样整个视频序列;3) Omni Guidance,一种增强时间一致性的技术,通过同时考虑过去和未来的信息来指导生成;4) 循环闭合机制,用于实现长程连贯性。整体流程是,首先根据预定义的相机轨迹,利用扩散拼接算法并行生成初始视频序列,然后通过Omni Guidance和循环闭合机制进行优化,最终得到高质量的相机引导视频。
关键创新:论文最重要的技术创新点在于将扩散拼接算法从机器人规划领域扩展到视频生成领域,并提出了Omni Guidance来增强时间一致性。与传统的自回归方法相比,GVS能够更好地利用全局信息,避免碰撞并生成更连贯的视频。此外,GVS的另一个创新点在于其与现成的Diffusion Forcing模型的兼容性,无需专门训练模型。
关键设计:Omni Guidance是GVS的关键设计之一,它通过同时以过去和未来的帧为条件来指导当前帧的生成,从而增强时间一致性。具体实现方式未知,可能涉及到注意力机制或者其他融合过去和未来信息的技术。此外,循环闭合机制也是一个重要的设计,它通过显式地约束视频序列的起始帧和结束帧,来保证长程连贯性。具体的损失函数和网络结构等技术细节在论文中可能有所描述,但此处信息不足,无法详细展开。
🖼️ 关键图片
📊 实验亮点
论文提出的GVS方法能够生成稳定、无碰撞、帧间一致且闭合循环的相机引导视频,尤其在处理复杂场景(如不可能楼梯)时表现出色。虽然论文中没有提供具体的性能数据,但通过提供的视频结果可以看出,GVS在生成质量和时间一致性方面明显优于现有方法。与自回归模型相比,GVS能够更好地避免碰撞,并生成更连贯的视频。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、电影制作等领域,例如,可以根据预定义的相机轨迹自动生成高质量的场景漫游视频,或者用于创建具有复杂空间结构的虚拟环境。此外,该技术还可以用于机器人导航和自动驾驶等领域,帮助机器人更好地理解周围环境并规划运动轨迹。
📄 摘要(原文)
Autoregressive video diffusion models are capable of long rollouts that are stable and consistent with history, but they are unable to guide the current generation with conditioning from the future. In camera-guided video generation with a predefined camera trajectory, this limitation leads to collisions with the generated scene, after which autoregression quickly collapses. To address this, we propose Generative View Stitching (GVS), which samples the entire sequence in parallel such that the generated scene is faithful to every part of the predefined camera trajectory. Our main contribution is a sampling algorithm that extends prior work on diffusion stitching for robot planning to video generation. While such stitching methods usually require a specially trained model, GVS is compatible with any off-the-shelf video model trained with Diffusion Forcing, a prevalent sequence diffusion framework that we show already provides the affordances necessary for stitching. We then introduce Omni Guidance, a technique that enhances the temporal consistency in stitching by conditioning on both the past and future, and that enables our proposed loop-closing mechanism for delivering long-range coherence. Overall, GVS achieves camera-guided video generation that is stable, collision-free, frame-to-frame consistent, and closes loops for a variety of predefined camera paths, including Oscar Reutersvärd's Impossible Staircase. Results are best viewed as videos at https://andrewsonga.github.io/gvs.