DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning
作者: Yujie Wei, Xinyu Liu, Shiwei Zhang, Hangjie Yuan, Jinbo Xing, Zhekai Chen, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Ruihang Chu, Yingya Zhang, Yike Guo, Xihui Liu, Hongming Shan
分类: cs.CV
发布日期: 2026-03-12
备注: Project Page: https://dreamvideo-omni.github.io
💡 一句话要点
DreamVideo-Omni:基于潜在身份强化学习的通用运动控制多主体视频定制
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频生成 扩散模型 运动控制 多主体 身份保持 强化学习 条件生成 潜在空间
📋 核心要点
- 现有视频生成方法在多主体身份保持和多粒度运动控制方面存在不足,面临运动粒度有限、控制模糊和身份退化等挑战。
- DreamVideo-Omni通过两阶段训练范式,整合多模态控制信号,并引入组和角色嵌入来解耦多主体运动,实现精确控制。
- 该方法在DreamOmni Bench上表现出卓越性能,能够生成具有精确可控性的高质量视频,有效提升了身份保持和运动控制效果。
📝 摘要(中文)
大规模扩散模型革新了视频合成,但精确控制多主体身份和多粒度运动仍然是一个重大挑战。现有方法通常存在运动粒度有限、控制模糊和身份退化等问题,导致身份保持和运动控制效果不佳。本文提出了DreamVideo-Omni,一个统一的框架,通过渐进式的两阶段训练范式,实现和谐的多主体定制和通用运动控制。第一阶段,我们整合了全面的控制信号进行联合训练,包括主体外观、全局运动、局部动态和相机运动。为了确保稳健和精确的可控性,我们引入了条件感知的3D旋转位置嵌入来协调异构输入,并采用分层运动注入策略来增强全局运动引导。此外,为了解决多主体歧义,我们引入了组和角色嵌入,将运动信号明确地锚定到特定身份,有效地将复杂场景分解为独立的、可控的实例。第二阶段,为了减轻身份退化,我们设计了一种潜在身份奖励反馈学习范式,通过在预训练的视频扩散骨干网络上训练潜在身份奖励模型来实现。这在潜在空间中提供了运动感知的身份奖励,优先考虑与人类偏好对齐的身份保持。DreamVideo-Omni在精心策划的大规模数据集和全面的DreamOmni Bench多主体和通用运动控制评估的支持下,展示了在生成具有精确可控性的高质量视频方面的卓越性能。
🔬 方法详解
问题定义:现有视频生成方法难以在多主体场景下实现精细的运动控制和身份保持。具体来说,现有方法在控制运动的粒度上存在局限性,容易产生控制上的歧义,并且在生成过程中容易出现身份退化的问题,导致最终生成视频的质量不佳。
核心思路:DreamVideo-Omni的核心思路是通过一个两阶段的训练框架,首先学习如何整合各种控制信号(包括主体外观、全局运动、局部动态和相机运动),然后通过强化学习的方式,优化身份保持的效果。这样做的目的是为了在保证运动控制精度的同时,尽可能地保留视频中各个主体的身份信息。
技术框架:DreamVideo-Omni的整体框架包含两个主要阶段:第一阶段是联合训练阶段,旨在学习如何整合各种控制信号,包括主体外观、全局运动、局部动态和相机运动。该阶段的关键是引入了条件感知的3D旋转位置嵌入和分层运动注入策略。第二阶段是潜在身份奖励反馈学习阶段,旨在通过强化学习的方式,优化身份保持的效果。该阶段的关键是训练一个潜在身份奖励模型,并利用该模型提供的奖励信号来指导视频生成过程。
关键创新:DreamVideo-Omni的关键创新在于以下几个方面:1) 提出了一个统一的框架,可以同时控制多主体身份和多粒度运动。2) 引入了条件感知的3D旋转位置嵌入,可以有效地协调异构输入。3) 提出了分层运动注入策略,可以增强全局运动引导。4) 设计了一种潜在身份奖励反馈学习范式,可以有效地减轻身份退化。
关键设计:在第一阶段,使用了条件感知的3D旋转位置嵌入来协调异构输入,具体实现方式未知。分层运动注入策略的具体实现方式也未知。在第二阶段,潜在身份奖励模型的具体网络结构和训练方式未知。损失函数的设计也未知。
🖼️ 关键图片
📊 实验亮点
DreamVideo-Omni在DreamOmni Bench上进行了评估,结果表明其在多主体和通用运动控制方面表现出卓越的性能。具体的数据指标和对比基线未知,但论文强调该方法能够生成具有精确可控性的高质量视频,并且在身份保持方面有显著提升。
🎯 应用场景
DreamVideo-Omni具有广泛的应用前景,例如电影制作、游戏开发、虚拟现实、广告设计等领域。它可以用于生成具有特定人物和动作的视频内容,从而降低视频制作的成本和时间。此外,该技术还可以用于个性化视频生成,例如根据用户的喜好生成定制化的视频内容。
📄 摘要(原文)
While large-scale diffusion models have revolutionized video synthesis, achieving precise control over both multi-subject identity and multi-granularity motion remains a significant challenge. Recent attempts to bridge this gap often suffer from limited motion granularity, control ambiguity, and identity degradation, leading to suboptimal performance on identity preservation and motion control. In this work, we present DreamVideo-Omni, a unified framework enabling harmonious multi-subject customization with omni-motion control via a progressive two-stage training paradigm. In the first stage, we integrate comprehensive control signals for joint training, encompassing subject appearances, global motion, local dynamics, and camera movements. To ensure robust and precise controllability, we introduce a condition-aware 3D rotary positional embedding to coordinate heterogeneous inputs and a hierarchical motion injection strategy to enhance global motion guidance. Furthermore, to resolve multi-subject ambiguity, we introduce group and role embeddings to explicitly anchor motion signals to specific identities, effectively disentangling complex scenes into independent controllable instances. In the second stage, to mitigate identity degradation, we design a latent identity reward feedback learning paradigm by training a latent identity reward model upon a pretrained video diffusion backbone. This provides motion-aware identity rewards in the latent space, prioritizing identity preservation aligned with human preferences. Supported by our curated large-scale dataset and the comprehensive DreamOmni Bench for multi-subject and omni-motion control evaluation, DreamVideo-Omni demonstrates superior performance in generating high-quality videos with precise controllability.