MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model

📄 arXiv: 2603.14686v1 📥 PDF

作者: Jinguang Tong, Jinbo Wu, Kaisiyuan Wang, Zhelun Shen, Xuan Huang, Mochu Xiang, Xuesong Li, Yingying Li, Haocheng Feng, Chen Zhao, Hang Zhou, Wei He, Chuong Nguyen, Jingdong Wang, Hongdong Li

分类: cs.CV, cs.AI

发布日期: 2026-03-16


💡 一句话要点

MVHOI:通过3D基础模型桥接多视角条件,实现复杂人-物交互视频重演

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人-物交互 视频重演 3D基础模型 多视角学习 视频生成

📋 核心要点

  1. 现有HOI视频重演方法难以处理复杂的非平面操作,例如平面外的重定向。
  2. MVHOI利用3D基础模型生成视角一致的物体先验,并结合多视角参考图像合成高保真纹理。
  3. 实验表明,MVHOI在生成具有复杂3D物体操作的长时HOI视频方面显著优于现有方法。

📝 摘要(中文)

本文提出MVHOI,一个两阶段的人-物交互(HOI)视频重演框架,它通过3D基础模型(3DFM)桥接多视角参考条件和视频基础模型,以实现逼真的运动。3DFM首先生成视角一致的物体先验,该先验以跨新视角的隐式运动动态为条件。然后,一个可控的视频生成模型通过结合多视角参考图像来合成高保真度的物体纹理,并通过合理的检索机制确保外观一致性。通过使这两个阶段在推理阶段相互加强,我们的框架在生成具有复杂物体操作的长时HOI视频方面表现出卓越的性能。大量实验表明,该方法相比现有方法有显著改进,尤其是在具有复杂3D物体操作的HOI方面。

🔬 方法详解

问题定义:现有的人-物交互(HOI)视频重演方法主要处理简单的图像平面运动,例如平面内平移。它们在处理复杂的非平面操作(如平面外重定向)时表现不佳,难以生成具有真实感的HOI视频,尤其是在涉及复杂3D物体操作时。

核心思路:MVHOI的核心思路是利用3D基础模型(3DFM)来生成视角一致的物体先验,从而桥接多视角参考条件和视频基础模型。通过这种方式,可以更好地理解和建模物体在3D空间中的运动和交互,从而生成更逼真的HOI视频。同时,利用多视角参考图像来合成高保真度的物体纹理,确保外观一致性。

技术框架:MVHOI框架包含两个主要阶段:1) 3D基础模型(3DFM)阶段:该阶段负责生成视角一致的物体先验,以跨新视角的隐式运动动态为条件。2) 可控视频生成阶段:该阶段利用多视角参考图像合成高保真度的物体纹理,并通过检索机制确保外观一致性。这两个阶段在推理阶段相互加强,共同生成最终的HOI视频。

关键创新:MVHOI的关键创新在于利用3D基础模型来建模HOI视频中的3D运动和交互。与现有方法相比,MVHOI能够更好地理解和生成复杂的3D物体操作,从而生成更逼真的HOI视频。此外,该框架通过多视角参考图像来合成高保真度的物体纹理,进一步提高了生成视频的真实感。

关键设计:具体的技术细节包括:3DFM的网络结构和训练方式,如何利用隐式运动动态生成视角一致的物体先验,视频生成模型的结构和损失函数,以及如何设计检索机制来确保外观一致性。这些细节在论文中应该有更详细的描述,但具体参数设置和网络结构等信息未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MVHOI在生成具有复杂3D物体操作的长时HOI视频方面显著优于现有方法。具体的性能数据和对比基线在论文中应该有详细的展示,但由于没有提供具体数据,无法在此处详细说明。总体而言,MVHOI在HOI视频重演任务上取得了显著的提升。

🎯 应用场景

MVHOI具有广泛的应用前景,包括虚拟现实、增强现实、游戏开发、电影制作等领域。它可以用于创建更逼真、更具交互性的虚拟环境,提升用户体验。此外,该技术还可以用于机器人控制和人机交互等领域,帮助机器人更好地理解和模拟人类的动作。

📄 摘要(原文)

Human-Object Interaction (HOI) video reenactment with realistic motion remains a frontier in expressive digital human creation. Existing approaches primarily handle simple image-plane motion (e.g., in-plane translations), struggling with complex non-planar manipulations like out-of-plane reorientation. In this paper, we propose MVHOI, a two-stage HOI video reenactment framework that bridges multi-view reference conditions and video foundation models via a 3D Foundation Model (3DFM). The 3DFM first produces view-consistent object priors conditioned on implicit motion dynamics across novel viewpoints. A controllable video generation model then synthesizes high-fidelity object texture by incorporating multi-view reference images, ensuring appearance consistency via a reasonable retrieval mechanism. By enabling these two stages to mutually reinforce one another during the inference phase, our framework shows superior performance in generating long-duration HOI videos with intricate object manipulations. Extensive experiments show substantial improvements over prior approaches, especially for HOI with complex 3D object manipulations.