Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

作者: Zhenghong Zhou, Xiaohang Zhan, Zhiqin Chen, Soo Ye Kim, Nanxuan Zhao, Haitian Zheng, Qing Liu, He Zhang, Zhe Lin, Yuqian Zhou, Jiebo Luo

分类: cs.CV

发布日期: 2026-03-16

备注: Project page: https://zhouzhenghong-gt.github.io/Tri-Prompting-Page/

💡 一句话要点

Tri-Prompting：提出统一框架，实现对视频扩散模型场景、主体和运动的联合控制。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 视频扩散模型 可控视频生成 多视角一致性 运动控制 场景构成

📋 核心要点

现有视频扩散模型缺乏对场景、主体和运动的统一控制，限制了内容创作的灵活性和可定制性。
Tri-Prompting通过双条件运动模块和两阶段训练，实现了对场景构成、多视角主体一致性和运动控制的整合。
实验表明，Tri-Prompting在多视角主体身份保持、3D一致性和运动精度上超越了现有方法，展现了优越的性能。

📝 摘要（中文）

本文提出Tri-Prompting，一个统一的框架和两阶段训练范式，旨在整合场景构成、多视角主体一致性和运动控制，解决现有视频扩散模型在精细化控制方面的瓶颈。该方法利用双条件运动模块，分别由3D跟踪点驱动背景场景，由降采样的RGB线索驱动前景主体。为了平衡可控性和视觉真实感，进一步提出了推理ControlNet尺度调整策略。Tri-Prompting支持新颖的工作流程，包括将3D感知的主体插入到任何场景中，以及操纵图像中现有的主体。实验结果表明，Tri-Prompting在多视角主体身份、3D一致性和运动精度方面显著优于Phantom和DaS等专门的基线方法。

🔬 方法详解

问题定义：现有视频扩散模型在精细化控制方面存在瓶颈，尤其是在场景构成、多视角主体一致性和运动控制的联合控制上。现有方法通常孤立地处理这些维度，对多视角主体合成和任意姿势变化下的身份保持支持有限。缺乏统一的架构来支持多功能、联合可控的视频生成。

核心思路：Tri-Prompting的核心思路是构建一个统一的框架，通过双条件运动模块分别控制背景场景和前景主体，并结合两阶段训练范式，实现对场景、主体和运动的协同控制。这种设计旨在解耦不同维度的控制，从而提高生成视频的可控性和真实感。

技术框架：Tri-Prompting采用两阶段训练范式。第一阶段，模型学习生成高质量的视频。第二阶段，模型学习如何根据给定的提示控制视频的生成。整体架构包含一个视频扩散模型和一个双条件运动模块。运动模块接收3D跟踪点作为背景场景的运动条件，接收降采样的RGB线索作为前景主体的运动条件。ControlNet用于增强可控性。

关键创新：Tri-Prompting的关键创新在于其统一的框架，能够同时控制场景、主体和运动。双条件运动模块的设计允许模型分别处理背景和前景的运动，从而提高了控制的精细度。此外，推理阶段的ControlNet尺度调整策略进一步平衡了可控性和视觉真实感。

关键设计：双条件运动模块是关键设计之一，它使用3D跟踪点来控制背景场景的运动，使用降采样的RGB线索来控制前景主体的运动。ControlNet的尺度参数在推理阶段进行调整，以平衡可控性和视觉真实感。具体的损失函数和网络结构细节在论文中进行了详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Tri-Prompting在多视角主体身份保持、3D一致性和运动精度方面显著优于现有方法，例如Phantom和DaS。具体的性能提升数据（例如量化指标）在论文中进行了详细展示（未知）。这些结果验证了Tri-Prompting在联合控制视频生成方面的有效性。

🎯 应用场景

Tri-Prompting具有广泛的应用前景，包括电影制作、游戏开发、虚拟现实和增强现实等领域。它可以用于创建具有高度定制化和逼真效果的视频内容，例如将3D人物无缝插入到真实场景中，或者操纵现有图像中的人物动作。该技术有望降低视频创作的门槛，并为创作者提供更大的创作自由。

📄 摘要（原文）

Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.

Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理