SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

📄 arXiv: 2511.19319v1 📥 PDF

作者: Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu

分类: cs.CV

发布日期: 2025-11-24

备注: Project Page: https://droliven.github.io/SyncMV4D


💡 一句话要点

SyncMV4D:同步多视角联合扩散生成手-物交互视频与4D运动

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 手-物交互 多视角视频生成 扩散模型 4D运动生成 点云对齐

📋 核心要点

  1. 现有单视角HOI生成方法在3D几何感知上存在局限,易产生失真,而依赖高质量3D数据的3D HOI方法泛化性差。
  2. SyncMV4D通过多视角联合扩散模型(MJD)和扩散点对齐器(DPA),统一视觉先验、运动动力学和多视角几何,实现HOI视频和4D运动的协同生成。
  3. 实验结果表明,SyncMV4D在视觉真实感、运动合理性和多视角一致性方面均优于现有技术水平。

📝 摘要(中文)

手-物交互(HOI)生成在动画和机器人等领域至关重要。现有的基于视频的方法主要为单视角,限制了对3D几何的全面感知,导致几何失真或不真实的运动模式。虽然3D HOI方法可以生成动态合理的运动,但它们依赖于在受控实验室环境中捕获的高质量3D数据,严重限制了其在真实场景中的泛化能力。为了克服这些限制,我们提出了SyncMV4D,这是第一个通过统一视觉先验、运动动力学和多视角几何来联合生成同步多视角HOI视频和4D运动的模型。我们的框架包含两个核心创新:(1) 多视角联合扩散(MJD)模型,用于协同生成HOI视频和中间运动;(2) 扩散点对齐器(DPA),用于将粗糙的中间运动细化为全局对齐的4D度量点轨迹。为了将2D外观与4D动态紧密结合,我们建立了一个闭环、相互增强的循环。在扩散去噪过程中,生成的视频调节4D运动的细化,而对齐的4D点轨迹被重新投影以指导下一步的联合生成。实验表明,我们的方法在视觉真实感、运动合理性和多视角一致性方面优于最先进的替代方案。

🔬 方法详解

问题定义:现有HOI视频生成方法主要面临两个挑战:一是单视角方法难以捕捉准确的3D几何信息,导致生成结果失真;二是依赖高质量3D数据的3D HOI方法难以泛化到真实场景。因此,需要一种能够同时生成高质量多视角视频和动态合理4D运动的方法,并且能够摆脱对特定环境和数据的依赖。

核心思路:SyncMV4D的核心思路是利用多视角信息,通过联合扩散模型同时生成HOI视频和4D运动,并建立一个闭环反馈机制,使2D外观和4D动态相互增强。通过多视角信息,模型可以更好地理解3D几何结构,从而生成更真实、更一致的视频。闭环反馈机制则可以确保生成结果在视觉和运动上都具有合理性。

技术框架:SyncMV4D框架包含两个主要模块:多视角联合扩散(MJD)模型和扩散点对齐器(DPA)。MJD模型负责协同生成HOI视频和中间运动,它以文本描述或初始图像作为输入,通过扩散过程逐步生成视频帧和对应的3D运动轨迹。DPA则负责将MJD模型生成的粗糙运动轨迹细化为全局对齐的4D度量点轨迹,从而提高运动的准确性和一致性。整个框架采用闭环反馈机制,生成的视频信息用于指导DPA对运动轨迹的细化,而细化后的运动轨迹又被重新投影到视频中,指导下一步的联合生成。

关键创新:SyncMV4D的关键创新在于以下两点:一是提出了多视角联合扩散(MJD)模型,能够同时生成多视角视频和4D运动,从而避免了单视角方法的局限性;二是提出了扩散点对齐器(DPA),能够将粗糙的运动轨迹细化为全局对齐的4D度量点轨迹,从而提高了运动的准确性和一致性。此外,闭环反馈机制也是一个重要的创新,它能够确保生成结果在视觉和运动上都具有合理性。

关键设计:MJD模型采用扩散模型作为生成框架,通过逐步去噪的方式生成视频帧和运动轨迹。DPA则采用Transformer网络,将粗糙的运动轨迹作为输入,输出细化后的4D度量点轨迹。损失函数包括视频重建损失、运动轨迹损失和多视角一致性损失等,用于约束生成结果的质量和一致性。在训练过程中,采用了对抗训练和自监督学习等技术,以提高模型的泛化能力。

📊 实验亮点

实验结果表明,SyncMV4D在视觉真实感、运动合理性和多视角一致性方面均优于现有技术水平。具体来说,在HOI视频生成任务中,SyncMV4D在FID、PSNR和SSIM等指标上均取得了显著提升,并且能够生成更加自然、流畅的运动轨迹。此外,SyncMV4D还能够生成具有多视角一致性的视频,避免了单视角方法中常见的几何失真问题。

🎯 应用场景

SyncMV4D在动画制作、机器人控制、虚拟现实和增强现实等领域具有广泛的应用前景。例如,可以用于自动生成逼真的手-物交互动画,提高动画制作的效率和质量;可以用于训练机器人,使其能够更好地理解和执行复杂的任务;可以用于创建更加沉浸式的VR/AR体验,提高用户体验。

📄 摘要(原文)

Hand-Object Interaction (HOI) generation plays a critical role in advancing applications across animation and robotics. Current video-based methods are predominantly single-view, which impedes comprehensive 3D geometry perception and often results in geometric distortions or unrealistic motion patterns. While 3D HOI approaches can generate dynamically plausible motions, their dependence on high-quality 3D data captured in controlled laboratory settings severely limits their generalization to real-world scenarios. To overcome these limitations, we introduce SyncMV4D, the first model that jointly generates synchronized multi-view HOI videos and 4D motions by unifying visual prior, motion dynamics, and multi-view geometry. Our framework features two core innovations: (1) a Multi-view Joint Diffusion (MJD) model that co-generates HOI videos and intermediate motions, and (2) a Diffusion Points Aligner (DPA) that refines the coarse intermediate motion into globally aligned 4D metric point tracks. To tightly couple 2D appearance with 4D dynamics, we establish a closed-loop, mutually enhancing cycle. During the diffusion denoising process, the generated video conditions the refinement of the 4D motion, while the aligned 4D point tracks are reprojected to guide next-step joint generation. Experimentally, our method demonstrates superior performance to state-of-the-art alternatives in visual realism, motion plausibility, and multi-view consistency.