VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification

作者: Wanyue Zhang, Lin Geng Foo, Thabo Beeler, Rishabh Dabral, Christian Theobalt

分类: cs.CV

发布日期: 2025-12-10

💡 一句话要点

VHOI：通过运动稠密化，从稀疏轨迹控制人体-物体交互视频生成

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM) 支柱五：交互与反应 (Interaction & Reaction)

关键词: 视频生成 人体-物体交互 可控生成 运动稠密化 扩散模型

📋 核心要点

现有可控视频生成方法在稀疏控制（易于指定但缺乏实例感知）和密集信号（信息丰富但获取成本高昂）之间存在权衡。
VHOI通过两阶段框架解决该问题：首先将稀疏轨迹稠密化为HOI掩码序列，然后根据这些密集掩码微调视频扩散模型。
VHOI引入HOI感知运动表示，使用颜色编码区分人类和物体的运动，以及身体部位特定的动态，实验结果表明其性能优于现有方法。

📝 摘要（中文）

在视频中合成逼真的人体-物体交互（HOI）极具挑战性，因为人类和物体之间存在复杂的、特定于实例的交互动态。在视频生成中加入可控性进一步增加了复杂性。现有的可控视频生成方法面临一个权衡：诸如关键点轨迹之类的稀疏控制易于指定，但缺乏实例感知；而诸如光流、深度或3D网格之类的密集信号信息丰富，但获取成本高昂。我们提出了VHOI，这是一个两阶段框架，它首先将稀疏轨迹稠密化为HOI掩码序列，然后根据这些密集掩码微调视频扩散模型。我们引入了一种新颖的HOI感知运动表示，它使用颜色编码来区分人类和物体的运动，以及身体部位特定的动态。这种设计将人类先验知识融入到条件信号中，并增强了模型理解和生成逼真HOI动态的能力。实验表明，VHOI在可控HOI视频生成方面取得了最先进的结果。VHOI不仅限于仅交互场景，还可以端到端地生成完整的人类导航，从而实现与物体的交互。

🔬 方法详解

问题定义：论文旨在解决可控人体-物体交互（HOI）视频生成问题。现有方法要么使用稀疏控制信号（如关键点轨迹），缺乏实例感知能力，难以生成逼真的交互；要么使用密集信号（如光流、深度），获取成本高昂，限制了应用范围。因此，如何在保证可控性的前提下，生成高质量、逼真的HOI视频是一个挑战。

核心思路：论文的核心思路是将稀疏的控制信号（如关键点轨迹）转化为密集的HOI掩码序列，然后利用这些密集的掩码序列作为条件，驱动视频扩散模型生成最终的视频。通过这种两阶段的方法，既保留了稀疏控制的可控性，又利用了密集掩码的信息丰富性，从而生成更逼真的HOI视频。

技术框架：VHOI框架包含两个主要阶段：1) 运动稠密化阶段：将稀疏的人体和物体轨迹作为输入，生成密集的HOI掩码序列。该阶段的关键是HOI-aware运动表示，它使用颜色编码来区分人类和物体的运动，以及身体部位特定的动态。2) 视频生成阶段：使用运动稠密化阶段生成的HOI掩码序列作为条件，微调一个视频扩散模型，生成最终的HOI视频。

关键创新：论文的关键创新在于提出了HOI-aware运动表示。该表示不仅区分了人类和物体的运动，还区分了身体部位特定的动态。这种设计将人类先验知识融入到条件信号中，增强了模型理解和生成逼真HOI动态的能力。与现有方法相比，VHOI的运动表示更具表达能力，能够更好地捕捉HOI的复杂动态。

关键设计：HOI-aware运动表示使用颜色编码来表示不同的运动信息。例如，可以使用不同的颜色通道来表示人体和物体的运动，以及不同身体部位的运动。此外，论文还可能使用了特定的损失函数来训练运动稠密化模型，以确保生成的HOI掩码序列与输入的稀疏轨迹一致，并且能够捕捉到HOI的动态信息。视频生成阶段，扩散模型通常会采用U-Net结构，并使用HOI掩码序列作为条件输入到U-Net的中间层或输入层。

📊 实验亮点

实验结果表明，VHOI在可控HOI视频生成方面取得了state-of-the-art的结果。通过与现有方法的对比，VHOI能够生成更逼真、更可控的HOI视频。论文展示了VHOI在不同场景下的生成效果，包括人与物体的交互、人与环境的交互等，证明了VHOI的泛化能力。

🎯 应用场景

VHOI技术在虚拟现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于生成逼真的人机交互场景，例如虚拟助手、游戏角色交互、电影特效等。此外，该技术还可以用于训练机器人，使其能够更好地理解和执行与人类的交互任务。未来，VHOI有望成为人机交互领域的重要技术支撑。

📄 摘要（原文）

Synthesizing realistic human-object interactions (HOI) in video is challenging due to the complex, instance-specific interaction dynamics of both humans and objects. Incorporating controllability in video generation further adds to the complexity. Existing controllable video generation approaches face a trade-off: sparse controls like keypoint trajectories are easy to specify but lack instance-awareness, while dense signals such as optical flow, depths or 3D meshes are informative but costly to obtain. We propose VHOI, a two-stage framework that first densifies sparse trajectories into HOI mask sequences, and then fine-tunes a video diffusion model conditioned on these dense masks. We introduce a novel HOI-aware motion representation that uses color encodings to distinguish not only human and object motion, but also body-part-specific dynamics. This design incorporates a human prior into the conditioning signal and strengthens the model's ability to understand and generate realistic HOI dynamics. Experiments demonstrate state-of-the-art results in controllable HOI video generation. VHOI is not limited to interaction-only scenarios and can also generate full human navigation leading up to object interactions in an end-to-end manner. Project page: https://vcai.mpi-inf.mpg.de/projects/vhoi/.

VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册