OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer
作者: Pengze Zhang, Yanze Wu, Mengtian Li, Xu Bai, Songtao Zhao, Fulong Ye, Chong Mou, Xinghui Li, Zhuowei Chen, Qian He, Mingyuan Gao
分类: cs.CV
发布日期: 2026-01-20
备注: Github Page: https://pangzecheung.github.io/OmniTransfer/
💡 一句话要点
OmniTransfer:用于时空视频迁移的统一框架,提升视频生成灵活性和保真度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频迁移 时空建模 多模态对齐 因果学习 视频生成
📋 核心要点
- 现有视频定制方法依赖图像或任务先验,缺乏对视频时空信息的充分利用,限制了生成效果。
- OmniTransfer通过多视角信息增强外观一致性,利用时间线索实现细粒度控制,统一各种视频迁移任务。
- 实验表明,OmniTransfer在外观和时间迁移上优于现有方法,并在运动迁移上达到与姿势引导方法相当的水平。
📝 摘要(中文)
本文提出OmniTransfer,一个用于时空视频迁移的统一框架。现有视频定制方法依赖参考图像或特定任务的时序先验,未能充分利用视频中固有的丰富时空信息,限制了视频生成的灵活性和泛化性。OmniTransfer利用跨帧的多视角信息来增强外观一致性,并利用时间线索来实现细粒度的时间控制。为了统一各种视频迁移任务,OmniTransfer包含三个关键设计:任务感知的位置偏置,自适应地利用参考视频信息以改善时间对齐或外观一致性;参考解耦的因果学习,分离参考和目标分支以实现精确的参考迁移并提高效率;以及任务自适应的多模态对齐,使用多模态语义指导来动态区分和处理不同的任务。大量实验表明,OmniTransfer在外观(ID和风格)和时间迁移(相机运动和视频效果)方面优于现有方法,同时在运动迁移方面与基于姿势的方法相匹配,而无需使用姿势信息,从而为灵活、高保真视频生成建立了一种新的范例。
🔬 方法详解
问题定义:现有视频迁移方法通常依赖于参考图像或特定任务的时序先验,无法充分利用视频本身蕴含的丰富时空信息。这导致视频生成的灵活性和泛化能力受限,难以处理各种复杂的视频迁移任务。现有方法在外观一致性、时间连贯性和细粒度控制方面存在不足。
核心思路:OmniTransfer的核心思路是构建一个统一的框架,能够同时处理外观和时间上的视频迁移任务。它通过利用跨帧的多视角信息来增强外观一致性,并利用时间线索来实现细粒度的时间控制。通过解耦参考和目标分支,实现更精确的参考迁移和更高的效率。
技术框架:OmniTransfer框架包含三个主要模块:1) 任务感知的位置偏置(Task-aware Positional Bias):自适应地利用参考视频信息,改善时间对齐或外观一致性。2) 参考解耦的因果学习(Reference-decoupled Causal Learning):分离参考和目标分支,实现精确的参考迁移并提高效率。3) 任务自适应的多模态对齐(Task-adaptive Multimodal Alignment):使用多模态语义指导,动态区分和处理不同的任务。整体流程是,输入参考视频和目标视频,经过这三个模块的处理,最终生成迁移后的目标视频。
关键创新:OmniTransfer的关键创新在于其统一的框架设计,能够同时处理多种视频迁移任务,而无需针对特定任务进行定制。参考解耦的因果学习是另一个重要创新,它通过分离参考和目标分支,避免了信息混淆,提高了迁移的准确性和效率。任务自适应的多模态对齐则使得框架能够根据不同的任务动态调整策略,从而实现更好的效果。
关键设计:任务感知的位置偏置模块使用可学习的偏置项来调整注意力机制,从而更好地对齐参考视频和目标视频。参考解耦的因果学习模块使用两个独立的编码器分别处理参考视频和目标视频,并通过交叉注意力机制进行信息交互。任务自适应的多模态对齐模块使用预训练的CLIP模型提取视频的语义信息,并根据语义信息动态调整损失函数的权重。
📊 实验亮点
实验结果表明,OmniTransfer在外观(ID和风格)和时间迁移(相机运动和视频效果)方面显著优于现有方法。例如,在风格迁移任务中,OmniTransfer生成的视频在风格一致性和视觉质量方面均优于基线方法。在运动迁移任务中,OmniTransfer在没有使用姿势信息的情况下,达到了与基于姿势的方法相当的性能。这些结果验证了OmniTransfer的有效性和优越性。
🎯 应用场景
OmniTransfer具有广泛的应用前景,包括视频编辑、内容创作、虚拟现实、游戏开发等领域。它可以用于快速生成各种风格的视频内容,例如将一个人的表演风格迁移到另一个人身上,或者将一个场景的视觉效果迁移到另一个场景中。该研究的实际价值在于降低了视频创作的门槛,提高了视频生成的效率和质量。未来,OmniTransfer有望成为视频内容生产的重要工具。
📄 摘要(原文)
Videos convey richer information than images or text, capturing both spatial and temporal dynamics. However, most existing video customization methods rely on reference images or task-specific temporal priors, failing to fully exploit the rich spatio-temporal information inherent in videos, thereby limiting flexibility and generalization in video generation. To address these limitations, we propose OmniTransfer, a unified framework for spatio-temporal video transfer. It leverages multi-view information across frames to enhance appearance consistency and exploits temporal cues to enable fine-grained temporal control. To unify various video transfer tasks, OmniTransfer incorporates three key designs: Task-aware Positional Bias that adaptively leverages reference video information to improve temporal alignment or appearance consistency; Reference-decoupled Causal Learning separating reference and target branches to enable precise reference transfer while improving efficiency; and Task-adaptive Multimodal Alignment using multimodal semantic guidance to dynamically distinguish and tackle different tasks. Extensive experiments show that OmniTransfer outperforms existing methods in appearance (ID and style) and temporal transfer (camera movement and video effects), while matching pose-guided methods in motion transfer without using pose, establishing a new paradigm for flexible, high-fidelity video generation.