Compositional Video Synthesis by Temporal Object-Centric Learning
作者: Adil Kaan Akan, Yucel Yemez
分类: cs.CV
发布日期: 2025-07-28
备注: 12+21 pages, submitted to IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), currently under review
💡 一句话要点
提出基于时序对象中心学习的组合视频合成框架,实现高质量可控视频生成。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视频合成 对象中心表示 扩散模型 时间一致性 组合编辑
📋 核心要点
- 现有对象中心方法缺乏生成能力或忽略视频中显式的对象级结构,限制了视频合成的质量和可控性。
- 该方法通过学习姿势不变的对象中心槽,并结合预训练的扩散模型,显式地捕捉视频中的时间动态。
- 实验表明,该方法在视频生成质量和时间一致性方面优于现有方法,并支持对象级别的编辑操作。
📝 摘要(中文)
本文提出了一种新颖的组合视频合成框架,该框架利用时间上一致的以对象为中心的表示,将我们之前的工作SlotAdapt从图像扩展到视频。现有的以对象为中心的方法要么完全缺乏生成能力,要么将视频序列视为整体,从而忽略了显式的对象级结构。我们的方法通过学习姿势不变的以对象为中心的槽,并将其与预训练的扩散模型相结合,显式地捕捉时间动态。这种设计实现了高质量、像素级的视频合成,具有卓越的时间连贯性,并提供了直观的组合编辑功能,例如对象插入、删除或替换,同时保持跨帧的对象身份一致性。大量的实验表明,我们的方法在视频生成质量和时间一致性方面树立了新的基准,优于以往的以对象为中心的生成方法。虽然我们的分割性能与最先进的方法非常接近,但我们的方法独特地将这种能力与强大的生成性能相结合,显著推进了交互式和可控视频生成,并为高级内容创作、语义编辑和动态场景理解开辟了新的可能性。
🔬 方法详解
问题定义:论文旨在解决视频合成中缺乏对象级别控制和时间一致性的问题。现有方法要么无法生成视频,要么将视频视为一个整体,忽略了视频中各个对象之间的关系和时间动态,导致合成的视频质量不高,难以进行编辑和控制。
核心思路:论文的核心思路是利用时序一致的对象中心表示来合成视频。通过将视频分解为多个对象槽,并学习每个对象槽的姿势不变表示,可以实现对视频中各个对象的独立控制。同时,利用预训练的扩散模型,可以生成高质量的视频帧,并保证时间上的一致性。
技术框架:该框架主要包含以下几个模块:1) 对象分割模块,用于将视频帧分割成多个对象槽;2) 对象表示模块,用于学习每个对象槽的姿势不变表示;3) 扩散模型,用于生成高质量的视频帧;4) 时间一致性模块,用于保证视频帧之间的时间一致性。整个流程是,首先利用对象分割模块将视频帧分割成多个对象槽,然后利用对象表示模块学习每个对象槽的姿势不变表示,接着将这些表示输入到扩散模型中生成视频帧,最后利用时间一致性模块保证视频帧之间的时间一致性。
关键创新:该论文的关键创新在于将对象中心表示和扩散模型相结合,实现了高质量、可控的视频合成。与现有方法相比,该方法能够显式地捕捉视频中的对象级结构和时间动态,从而生成更加逼真和可控的视频。
关键设计:论文中使用了Slot Attention机制进行对象分割,使用对比学习来学习姿势不变的对象表示,并使用预训练的扩散模型来生成视频帧。时间一致性模块通过最小化相邻帧之间对象表示的差异来实现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在视频生成质量和时间一致性方面均优于现有方法。具体来说,该方法在多个视频数据集上取得了state-of-the-art的结果,并且能够生成具有高度时间一致性的视频序列。此外,该方法还支持对象级别的编辑操作,例如对象插入、删除和替换。
🎯 应用场景
该研究成果可应用于高级内容创作、视频编辑、虚拟现实、游戏开发等领域。例如,可以用于创建具有逼真效果的虚拟场景,或者对现有视频进行语义编辑,例如替换视频中的人物或物体,从而为用户提供更加丰富的创作工具和体验。
📄 摘要(原文)
We present a novel framework for compositional video synthesis that leverages temporally consistent object-centric representations, extending our previous work, SlotAdapt, from images to video. While existing object-centric approaches either lack generative capabilities entirely or treat video sequences holistically, thus neglecting explicit object-level structure, our approach explicitly captures temporal dynamics by learning pose invariant object-centric slots and conditioning them on pretrained diffusion models. This design enables high-quality, pixel-level video synthesis with superior temporal coherence, and offers intuitive compositional editing capabilities such as object insertion, deletion, or replacement, maintaining consistent object identities across frames. Extensive experiments demonstrate that our method sets new benchmarks in video generation quality and temporal consistency, outperforming previous object-centric generative methods. Although our segmentation performance closely matches state-of-the-art methods, our approach uniquely integrates this capability with robust generative performance, significantly advancing interactive and controllable video generation and opening new possibilities for advanced content creation, semantic editing, and dynamic scene understanding.