Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video

📄 arXiv: 2509.08376v1 📥 PDF

作者: Xiao Li, Qi Chen, Xiulian Peng, Kai Yu, Xie Chen, Yan Lu

分类: cs.CV

发布日期: 2025-09-10


💡 一句话要点

提出一种基于码率控制扩散模型的视频解耦框架,用于分离视频中的运动和内容。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频解耦 扩散模型 自监督学习 运动迁移 视频生成

📋 核心要点

  1. 现有视频解耦方法依赖较强的先验假设,且难以有效分离运动与内容。
  2. 提出一种基于码率控制扩散模型的自监督框架,通过信息瓶颈促进运动与内容的解耦。
  3. 实验表明,该方法在运动迁移和自回归运动生成任务上表现良好,并可推广到其他视频类型。

📝 摘要(中文)

本文提出了一种新颖且通用的框架,用于将视频数据解耦为动态运动和静态内容组件。该方法是一个自监督流程,与以往工作相比,具有更少的假设和归纳偏置:它利用基于Transformer的架构,为逐帧运动和逐片段内容联合生成灵活的隐式特征,并结合低码率矢量量化作为信息瓶颈,以促进解耦并形成有意义的离散运动空间。码率控制的潜在运动和内容被用作去噪扩散模型的条件输入,以促进自监督表征学习。我们在真实世界的说话人头部视频上验证了解耦表征学习框架,进行了运动迁移和自回归运动生成任务。此外,我们还表明该方法可以推广到其他类型的视频数据,例如2D卡通人物的像素精灵。这项工作为解耦视频表征的自监督学习提供了一个新的视角,为更广泛的视频分析和生成领域做出了贡献。

🔬 方法详解

问题定义:现有视频解耦方法通常依赖于特定的网络结构或损失函数设计,对视频内容和运动的先验知识要求较高,泛化能力有限。此外,如何有效分离视频中的运动和内容,并获得可解释的运动表征仍然是一个挑战。

核心思路:本文的核心思路是利用信息瓶颈原理,通过低码率矢量量化来限制运动信息的容量,从而迫使模型学习到更简洁、更具有代表性的运动表征。同时,利用扩散模型强大的生成能力,将解耦后的运动和内容作为条件输入,实现视频的重建和生成。

技术框架:该方法包含三个主要模块:1) 基于Transformer的特征提取器,用于提取逐帧运动特征和逐片段内容特征;2) 低码率矢量量化模块,用于对运动特征进行离散化,形成离散运动空间;3) 去噪扩散模型,以解耦后的运动和内容为条件,生成视频帧。整体流程为:输入视频 -> 特征提取 -> 运动量化 -> 扩散模型生成 -> 输出视频。

关键创新:该方法的主要创新在于:1) 提出了一种基于码率控制的解耦框架,通过信息瓶颈促进运动和内容的有效分离;2) 利用扩散模型强大的生成能力,实现了高质量的视频重建和生成;3) 采用自监督学习方式,减少了对标注数据的依赖。

关键设计:在特征提取器中,使用了Transformer结构来捕捉视频帧之间的时序关系。低码率矢量量化模块采用Gumbel-Softmax技巧进行可微量化。扩散模型采用U-Net结构,以解耦后的运动和内容作为条件输入。损失函数包括重建损失和量化损失,用于优化模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在运动迁移任务上能够生成高质量的视频,并且能够有效地控制视频的运动风格。在自回归运动生成任务上,该方法能够生成逼真的运动序列。此外,该方法还能够推广到其他类型的视频数据,例如2D卡通人物的像素精灵。

🎯 应用场景

该研究成果可应用于视频编辑、视频生成、动作迁移、视频压缩等领域。例如,可以利用该方法实现对视频中人物动作的编辑和替换,生成具有特定风格的视频内容,或者对视频进行高效压缩,降低存储和传输成本。未来,该方法有望在虚拟现实、增强现实等领域发挥重要作用。

📄 摘要(原文)

We propose a novel and general framework to disentangle video data into its dynamic motion and static content components. Our proposed method is a self-supervised pipeline with less assumptions and inductive biases than previous works: it utilizes a transformer-based architecture to jointly generate flexible implicit features for frame-wise motion and clip-wise content, and incorporates a low-bitrate vector quantization as an information bottleneck to promote disentanglement and form a meaningful discrete motion space. The bitrate-controlled latent motion and content are used as conditional inputs to a denoising diffusion model to facilitate self-supervised representation learning. We validate our disentangled representation learning framework on real-world talking head videos with motion transfer and auto-regressive motion generation tasks. Furthermore, we also show that our method can generalize to other types of video data, such as pixel sprites of 2D cartoon characters. Our work presents a new perspective on self-supervised learning of disentangled video representations, contributing to the broader field of video analysis and generation.