HVG-3D: Bridging Real and Simulation Domains for 3D-Conditional Hand-Object Interaction Video Synthesis

📄 arXiv: 2604.03305 📥 PDF

作者: Mingjin Chen, Junhao Chen, Zhaoxin Fan, Yujian Lee, Zichen Dang, Lili Wang, Yawen Cui, Lap-Pui Chau, Yi Wang

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

HVG-3D:提出基于3D条件的手-物交互视频合成框架,弥合真实与仿真域差距

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 手-物交互 视频合成 3D条件生成 扩散模型 ControlNet

📋 核心要点

  1. 现有手-物交互视频合成方法依赖2D控制信号,缺乏空间表达能力,限制了3D条件数据的利用。
  2. HVG-3D提出基于扩散模型的框架,利用3D ControlNet编码几何和运动信息,实现显式3D推理。
  3. 实验表明,HVG-3D在空间保真度、时间连贯性和可控性方面均达到SOTA,并能有效利用真实和仿真数据。

📝 摘要(中文)

本文提出HVG-3D,一个统一的框架,用于在显式3D表示条件下进行3D感知的手-物交互(HOI)视频合成。现有方法主要依赖于缺乏空间表达的2D控制信号,限制了合成3D条件数据的利用。HVG-3D采用基于扩散的架构,并增强了3D ControlNet,从3D输入中编码几何和运动线索,从而在视频合成过程中实现显式的3D推理。HVG-3D包含两个核心组件:(i) 3D感知的HOI视频生成扩散架构,用于编码3D输入的几何和运动线索,实现显式的3D推理;(ii) 用于构建输入和条件信号的混合流程,在训练和推理过程中实现灵活和精确的控制。在推理过程中,给定单个真实图像和来自仿真或真实数据的3D控制信号,HVG-3D可以生成具有精确空间和时间控制的高保真、时间一致的视频。在TASTE-Rob数据集上的实验表明,HVG-3D实现了最先进的空间保真度、时间连贯性和可控性,同时能够有效利用真实和模拟数据。

🔬 方法详解

问题定义:现有手-物交互视频合成方法主要依赖于2D控制信号,这些信号缺乏足够的空间表达能力,无法充分利用3D条件数据。这导致合成的视频在空间保真度和可控性方面存在局限性,难以满足复杂场景的需求。现有方法难以有效桥接真实数据和仿真数据之间的差距,限制了模型在真实场景中的泛化能力。

核心思路:HVG-3D的核心思路是利用显式的3D表示作为条件,指导视频合成过程。通过引入3D ControlNet,模型能够从3D输入中提取几何和运动信息,从而实现对合成视频更精确的空间和时间控制。这种方法能够更好地利用3D数据,并弥合真实数据和仿真数据之间的差距。

技术框架:HVG-3D的整体架构是一个基于扩散模型的视频生成框架,主要包含以下几个模块:1) 3D ControlNet:用于编码3D输入(如手和物体的姿态、形状等)的几何和运动信息。2) 3D感知的HOI视频生成扩散模型:利用ControlNet提取的特征,逐步生成高质量的视频帧。3) 混合数据pipeline:用于构建训练数据,包括真实数据和仿真数据,并生成相应的3D控制信号。在推理阶段,给定一个真实图像和3D控制信号,模型即可生成相应的视频。

关键创新:HVG-3D的关键创新在于将3D ControlNet引入到基于扩散模型的视频生成框架中,从而实现了对合成视频的显式3D控制。与现有方法相比,HVG-3D能够更好地利用3D数据,并生成具有更高空间保真度和可控性的视频。此外,混合数据pipeline的设计也使得模型能够有效利用真实数据和仿真数据,提高模型的泛化能力。

关键设计:3D ControlNet的具体结构未知,但其作用是提取3D输入的几何和运动特征,并将其融入到扩散模型的生成过程中。混合数据pipeline的设计需要仔细考虑如何将真实数据和仿真数据进行融合,以避免模型在训练过程中出现偏差。损失函数的设计需要考虑空间保真度、时间连贯性和可控性等多个方面,以保证合成视频的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HVG-3D在TASTE-Rob数据集上进行了实验,结果表明,HVG-3D在空间保真度、时间连贯性和可控性方面均达到了最先进水平。具体性能数据未知,但论文强调了HVG-3D能够有效利用真实和模拟数据,生成高质量的HOI视频。

🎯 应用场景

HVG-3D在机器人操作、虚拟现实、游戏开发等领域具有广泛的应用前景。例如,可以用于生成逼真的机器人操作视频,帮助训练机器人;也可以用于创建沉浸式的虚拟现实体验,让用户能够与虚拟环境中的物体进行交互;还可以用于游戏开发,生成各种手-物交互的动画。

📄 摘要(原文)

Recent methods have made notable progress in the visual quality of hand-object interaction video synthesis. However, most approaches rely on 2D control signals that lack spatial expressiveness and limit the utilization of synthetic 3D conditional data. To address these limitations, we propose HVG-3D, a unified framework for 3D-aware hand-object interaction (HOI) video synthesis conditioned on explicit 3D representations. Specifically, we develop a diffusion-based architecture augmented with a 3D ControlNet, which encodes geometric and motion cues from 3D inputs to enable explicit 3D reasoning during video synthesis. To achieve high-quality synthesis, HVG-3D is designed with two core components: (i) a 3D-aware HOI video generation diffusion architecture that encodes geometric and motion cues from 3D inputs for explicit 3D reasoning; and (ii) a hybrid pipeline for constructing input and condition signals, enabling flexible and precise control during both training and inference. During inference, given a single real image and a 3D control signal from either simulation or real data, HVG-3D generates high-fidelity, temporally consistent videos with precise spatial and temporal control. Experiments on the TASTE-Rob dataset demonstrate that HVG-3D achieves state-of-the-art spatial fidelity, temporal coherence, and controllability, while enabling effective utilization of both real and simulated data.