Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video

作者: Xiao Li, Qi Chen, Xiulian Peng, Kai Yu, Xie Chen, Yan Lu

分类: cs.CV

发布日期: 2025-09-10

💡 一句话要点

提出一种基于码率控制扩散模型的视频解耦框架，用于分离视频中的运动和内容。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 视频解耦 扩散模型 自监督学习 运动迁移 视频生成

📋 核心要点

现有视频解耦方法依赖较强的先验假设，且难以有效分离运动与内容。
提出一种基于码率控制扩散模型的自监督框架，通过信息瓶颈促进运动与内容的解耦。
实验表明，该方法在运动迁移和自回归运动生成任务上表现良好，并可推广到其他视频类型。

📝 摘要（中文）

本文提出了一种新颖且通用的框架，用于将视频数据解耦为动态运动和静态内容组件。该方法是一个自监督流程，与以往工作相比，具有更少的假设和归纳偏置：它利用基于Transformer的架构，为逐帧运动和逐片段内容联合生成灵活的隐式特征，并结合低码率矢量量化作为信息瓶颈，以促进解耦并形成有意义的离散运动空间。码率控制的潜在运动和内容被用作去噪扩散模型的条件输入，以促进自监督表征学习。我们在真实世界的说话人头部视频上验证了解耦表征学习框架，进行了运动迁移和自回归运动生成任务。此外，我们还表明该方法可以推广到其他类型的视频数据，例如2D卡通人物的像素精灵。这项工作为解耦视频表征的自监督学习提供了一个新的视角，为更广泛的视频分析和生成领域做出了贡献。

🔬 方法详解

问题定义：现有视频解耦方法通常依赖于特定的网络结构或损失函数设计，对视频内容和运动的先验知识要求较高，泛化能力有限。此外，如何有效分离视频中的运动和内容，并获得可解释的运动表征仍然是一个挑战。

核心思路：本文的核心思路是利用信息瓶颈原理，通过低码率矢量量化来限制运动信息的容量，从而迫使模型学习到更简洁、更具有代表性的运动表征。同时，利用扩散模型强大的生成能力，将解耦后的运动和内容作为条件输入，实现视频的重建和生成。

技术框架：该方法包含三个主要模块：1) 基于Transformer的特征提取器，用于提取逐帧运动特征和逐片段内容特征；2) 低码率矢量量化模块，用于对运动特征进行离散化，形成离散运动空间；3) 去噪扩散模型，以解耦后的运动和内容为条件，生成视频帧。整体流程为：输入视频 -> 特征提取 -> 运动量化 -> 扩散模型生成 -> 输出视频。

关键创新：该方法的主要创新在于：1) 提出了一种基于码率控制的解耦框架，通过信息瓶颈促进运动和内容的有效分离；2) 利用扩散模型强大的生成能力，实现了高质量的视频重建和生成；3) 采用自监督学习方式，减少了对标注数据的依赖。

关键设计：在特征提取器中，使用了Transformer结构来捕捉视频帧之间的时序关系。低码率矢量量化模块采用Gumbel-Softmax技巧进行可微量化。扩散模型采用U-Net结构，以解耦后的运动和内容作为条件输入。损失函数包括重建损失和量化损失，用于优化模型参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在运动迁移任务上能够生成高质量的视频，并且能够有效地控制视频的运动风格。在自回归运动生成任务上，该方法能够生成逼真的运动序列。此外，该方法还能够推广到其他类型的视频数据，例如2D卡通人物的像素精灵。

🎯 应用场景

该研究成果可应用于视频编辑、视频生成、动作迁移、视频压缩等领域。例如，可以利用该方法实现对视频中人物动作的编辑和替换，生成具有特定风格的视频内容，或者对视频进行高效压缩，降低存储和传输成本。未来，该方法有望在虚拟现实、增强现实等领域发挥重要作用。

📄 摘要（原文）

We propose a novel and general framework to disentangle video data into its dynamic motion and static content components. Our proposed method is a self-supervised pipeline with less assumptions and inductive biases than previous works: it utilizes a transformer-based architecture to jointly generate flexible implicit features for frame-wise motion and clip-wise content, and incorporates a low-bitrate vector quantization as an information bottleneck to promote disentanglement and form a meaningful discrete motion space. The bitrate-controlled latent motion and content are used as conditional inputs to a denoising diffusion model to facilitate self-supervised representation learning. We validate our disentangled representation learning framework on real-world talking head videos with motion transfer and auto-regressive motion generation tasks. Furthermore, we also show that our method can generalize to other types of video data, such as pixel sprites of 2D cartoon characters. Our work presents a new perspective on self-supervised learning of disentangled video representations, contributing to the broader field of video analysis and generation.

Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理