Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

📄 arXiv: 2603.15614v1 📥 PDF

作者: Zhenghong Zhou, Xiaohang Zhan, Zhiqin Chen, Soo Ye Kim, Nanxuan Zhao, Haitian Zheng, Qing Liu, He Zhang, Zhe Lin, Yuqian Zhou, Jiebo Luo

分类: cs.CV

发布日期: 2026-03-16

备注: Project page: https://zhouzhenghong-gt.github.io/Tri-Prompting-Page/


💡 一句话要点

Tri-Prompting:提出统一框架,实现对视频扩散模型场景、主体和运动的联合控制。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 视频扩散模型 可控视频生成 多视角一致性 运动控制 场景构成

📋 核心要点

  1. 现有视频扩散模型缺乏对场景、主体和运动的统一控制,限制了内容创作的灵活性和可定制性。
  2. Tri-Prompting通过双条件运动模块和两阶段训练,实现了对场景构成、多视角主体一致性和运动控制的整合。
  3. 实验表明,Tri-Prompting在多视角主体身份保持、3D一致性和运动精度上超越了现有方法,展现了优越的性能。

📝 摘要(中文)

本文提出Tri-Prompting,一个统一的框架和两阶段训练范式,旨在整合场景构成、多视角主体一致性和运动控制,解决现有视频扩散模型在精细化控制方面的瓶颈。该方法利用双条件运动模块,分别由3D跟踪点驱动背景场景,由降采样的RGB线索驱动前景主体。为了平衡可控性和视觉真实感,进一步提出了推理ControlNet尺度调整策略。Tri-Prompting支持新颖的工作流程,包括将3D感知的主体插入到任何场景中,以及操纵图像中现有的主体。实验结果表明,Tri-Prompting在多视角主体身份、3D一致性和运动精度方面显著优于Phantom和DaS等专门的基线方法。

🔬 方法详解

问题定义:现有视频扩散模型在精细化控制方面存在瓶颈,尤其是在场景构成、多视角主体一致性和运动控制的联合控制上。现有方法通常孤立地处理这些维度,对多视角主体合成和任意姿势变化下的身份保持支持有限。缺乏统一的架构来支持多功能、联合可控的视频生成。

核心思路:Tri-Prompting的核心思路是构建一个统一的框架,通过双条件运动模块分别控制背景场景和前景主体,并结合两阶段训练范式,实现对场景、主体和运动的协同控制。这种设计旨在解耦不同维度的控制,从而提高生成视频的可控性和真实感。

技术框架:Tri-Prompting采用两阶段训练范式。第一阶段,模型学习生成高质量的视频。第二阶段,模型学习如何根据给定的提示控制视频的生成。整体架构包含一个视频扩散模型和一个双条件运动模块。运动模块接收3D跟踪点作为背景场景的运动条件,接收降采样的RGB线索作为前景主体的运动条件。ControlNet用于增强可控性。

关键创新:Tri-Prompting的关键创新在于其统一的框架,能够同时控制场景、主体和运动。双条件运动模块的设计允许模型分别处理背景和前景的运动,从而提高了控制的精细度。此外,推理阶段的ControlNet尺度调整策略进一步平衡了可控性和视觉真实感。

关键设计:双条件运动模块是关键设计之一,它使用3D跟踪点来控制背景场景的运动,使用降采样的RGB线索来控制前景主体的运动。ControlNet的尺度参数在推理阶段进行调整,以平衡可控性和视觉真实感。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Tri-Prompting在多视角主体身份保持、3D一致性和运动精度方面显著优于现有方法,例如Phantom和DaS。具体的性能提升数据(例如量化指标)在论文中进行了详细展示(未知)。这些结果验证了Tri-Prompting在联合控制视频生成方面的有效性。

🎯 应用场景

Tri-Prompting具有广泛的应用前景,包括电影制作、游戏开发、虚拟现实和增强现实等领域。它可以用于创建具有高度定制化和逼真效果的视频内容,例如将3D人物无缝插入到真实场景中,或者操纵现有图像中的人物动作。该技术有望降低视频创作的门槛,并为创作者提供更大的创作自由。

📄 摘要(原文)

Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.