VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification
作者: Wanyue Zhang, Lin Geng Foo, Thabo Beeler, Rishabh Dabral, Christian Theobalt
分类: cs.CV
发布日期: 2025-12-10
💡 一句话要点
VHOI:通过运动稠密化,从稀疏轨迹控制人体-物体交互视频生成
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 视频生成 人体-物体交互 可控生成 运动稠密化 扩散模型
📋 核心要点
- 现有可控视频生成方法在稀疏控制(易于指定但缺乏实例感知)和密集信号(信息丰富但获取成本高昂)之间存在权衡。
- VHOI通过两阶段框架解决该问题:首先将稀疏轨迹稠密化为HOI掩码序列,然后根据这些密集掩码微调视频扩散模型。
- VHOI引入HOI感知运动表示,使用颜色编码区分人类和物体的运动,以及身体部位特定的动态,实验结果表明其性能优于现有方法。
📝 摘要(中文)
在视频中合成逼真的人体-物体交互(HOI)极具挑战性,因为人类和物体之间存在复杂的、特定于实例的交互动态。在视频生成中加入可控性进一步增加了复杂性。现有的可控视频生成方法面临一个权衡:诸如关键点轨迹之类的稀疏控制易于指定,但缺乏实例感知;而诸如光流、深度或3D网格之类的密集信号信息丰富,但获取成本高昂。我们提出了VHOI,这是一个两阶段框架,它首先将稀疏轨迹稠密化为HOI掩码序列,然后根据这些密集掩码微调视频扩散模型。我们引入了一种新颖的HOI感知运动表示,它使用颜色编码来区分人类和物体的运动,以及身体部位特定的动态。这种设计将人类先验知识融入到条件信号中,并增强了模型理解和生成逼真HOI动态的能力。实验表明,VHOI在可控HOI视频生成方面取得了最先进的结果。VHOI不仅限于仅交互场景,还可以端到端地生成完整的人类导航,从而实现与物体的交互。
🔬 方法详解
问题定义:论文旨在解决可控人体-物体交互(HOI)视频生成问题。现有方法要么使用稀疏控制信号(如关键点轨迹),缺乏实例感知能力,难以生成逼真的交互;要么使用密集信号(如光流、深度),获取成本高昂,限制了应用范围。因此,如何在保证可控性的前提下,生成高质量、逼真的HOI视频是一个挑战。
核心思路:论文的核心思路是将稀疏的控制信号(如关键点轨迹)转化为密集的HOI掩码序列,然后利用这些密集的掩码序列作为条件,驱动视频扩散模型生成最终的视频。通过这种两阶段的方法,既保留了稀疏控制的可控性,又利用了密集掩码的信息丰富性,从而生成更逼真的HOI视频。
技术框架:VHOI框架包含两个主要阶段:1) 运动稠密化阶段:将稀疏的人体和物体轨迹作为输入,生成密集的HOI掩码序列。该阶段的关键是HOI-aware运动表示,它使用颜色编码来区分人类和物体的运动,以及身体部位特定的动态。2) 视频生成阶段:使用运动稠密化阶段生成的HOI掩码序列作为条件,微调一个视频扩散模型,生成最终的HOI视频。
关键创新:论文的关键创新在于提出了HOI-aware运动表示。该表示不仅区分了人类和物体的运动,还区分了身体部位特定的动态。这种设计将人类先验知识融入到条件信号中,增强了模型理解和生成逼真HOI动态的能力。与现有方法相比,VHOI的运动表示更具表达能力,能够更好地捕捉HOI的复杂动态。
关键设计:HOI-aware运动表示使用颜色编码来表示不同的运动信息。例如,可以使用不同的颜色通道来表示人体和物体的运动,以及不同身体部位的运动。此外,论文还可能使用了特定的损失函数来训练运动稠密化模型,以确保生成的HOI掩码序列与输入的稀疏轨迹一致,并且能够捕捉到HOI的动态信息。视频生成阶段,扩散模型通常会采用U-Net结构,并使用HOI掩码序列作为条件输入到U-Net的中间层或输入层。
📊 实验亮点
实验结果表明,VHOI在可控HOI视频生成方面取得了state-of-the-art的结果。通过与现有方法的对比,VHOI能够生成更逼真、更可控的HOI视频。论文展示了VHOI在不同场景下的生成效果,包括人与物体的交互、人与环境的交互等,证明了VHOI的泛化能力。
🎯 应用场景
VHOI技术在虚拟现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于生成逼真的人机交互场景,例如虚拟助手、游戏角色交互、电影特效等。此外,该技术还可以用于训练机器人,使其能够更好地理解和执行与人类的交互任务。未来,VHOI有望成为人机交互领域的重要技术支撑。
📄 摘要(原文)
Synthesizing realistic human-object interactions (HOI) in video is challenging due to the complex, instance-specific interaction dynamics of both humans and objects. Incorporating controllability in video generation further adds to the complexity. Existing controllable video generation approaches face a trade-off: sparse controls like keypoint trajectories are easy to specify but lack instance-awareness, while dense signals such as optical flow, depths or 3D meshes are informative but costly to obtain. We propose VHOI, a two-stage framework that first densifies sparse trajectories into HOI mask sequences, and then fine-tunes a video diffusion model conditioned on these dense masks. We introduce a novel HOI-aware motion representation that uses color encodings to distinguish not only human and object motion, but also body-part-specific dynamics. This design incorporates a human prior into the conditioning signal and strengthens the model's ability to understand and generate realistic HOI dynamics. Experiments demonstrate state-of-the-art results in controllable HOI video generation. VHOI is not limited to interaction-only scenarios and can also generate full human navigation leading up to object interactions in an end-to-end manner. Project page: https://vcai.mpi-inf.mpg.de/projects/vhoi/.