DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors

📄 arXiv: 2409.08278v1 📥 PDF

作者: Thomas Hanwen Zhu, Ruining Li, Tomas Jakab

分类: cs.CV

发布日期: 2024-09-12

备注: Project page: https://DreamHOI.github.io/


💡 一句话要点

DreamHOI:利用扩散先验实现主体驱动的3D人-物交互生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物交互 3D生成 扩散模型 神经辐射场 零样本学习

📋 核心要点

  1. 现有方法难以处理真实世界物体多样性以及HOI数据集稀缺性带来的挑战,限制了3D人-物交互的生成。
  2. DreamHOI利用文本到图像扩散模型的先验知识,通过优化蒙皮人体网格的关节运动,实现零样本HOI合成。
  3. 实验结果表明,DreamHOI能够有效地生成逼真的人-物交互,验证了该方法在HOI生成方面的有效性。

📝 摘要(中文)

DreamHOI 提出了一种新颖的零样本人-物交互(HOI)合成方法,能够基于文本描述使 3D 人体模型与任何给定物体进行逼真交互。该任务的复杂性在于现实世界物体类别和几何形状的多样性,以及包含各种 HOI 的数据集的稀缺性。为了规避对大量数据的需求,我们利用在数十亿图像-文本对上训练的文本到图像扩散模型。我们使用从这些模型获得的 Score Distillation Sampling (SDS) 梯度来优化蒙皮人体网格的关节运动,这些模型预测图像空间编辑。然而,由于图像空间梯度的局部性,直接将图像空间梯度反向传播到复杂的关节参数中是无效的。为了克服这个问题,我们引入了蒙皮网格的双重隐式-显式表示,将(隐式)神经辐射场(NeRF)与(显式)骨骼驱动的网格关节运动相结合。在优化过程中,我们在隐式和显式形式之间转换,在细化网格关节运动的同时,对 NeRF 生成进行约束。我们通过广泛的实验验证了我们的方法,证明了其在生成逼真 HOI 方面的有效性。

🔬 方法详解

问题定义:论文旨在解决在缺乏大量训练数据的情况下,如何使3D人体模型与任意物体进行逼真交互的问题。现有方法难以处理真实世界物体类别和几何形状的多样性,并且缺乏包含各种HOI的数据集,导致难以生成高质量的人-物交互。

核心思路:论文的核心思路是利用预训练的文本到图像扩散模型作为先验知识,通过优化人体网格的关节运动,使其与给定的物体和文本描述相符。通过Score Distillation Sampling (SDS) 梯度来指导优化过程,从而避免了对大量HOI数据的依赖。

技术框架:DreamHOI采用双重隐式-显式表示的蒙皮网格。首先,使用神经辐射场(NeRF)进行隐式表示,以生成高质量的图像。然后,通过骨骼驱动的网格关节运动进行显式表示,以控制人体姿态。在优化过程中,交替使用隐式和显式表示,利用NeRF的生成能力和显式网格的控制能力,最终得到逼真的人-物交互。

关键创新:该方法最重要的创新点在于结合了隐式神经辐射场(NeRF)和显式骨骼驱动的网格关节运动,形成双重表示。这种双重表示能够克服直接使用图像空间梯度优化复杂关节参数的困难,并有效利用扩散模型的先验知识。

关键设计:论文使用Score Distillation Sampling (SDS) 梯度来优化人体姿态。SDS梯度通过文本到图像扩散模型预测图像空间编辑,并将其反向传播到人体网格的关节参数中。此外,论文还设计了一种在隐式和显式表示之间转换的策略,以平衡生成质量和控制能力。具体的损失函数和网络结构等细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DreamHOI通过实验验证了其在生成逼真人-物交互方面的有效性。实验结果表明,该方法能够生成与文本描述相符,且具有较高视觉质量的HOI。与现有方法相比,DreamHOI在零样本HOI生成方面取得了显著的提升,无需大量的训练数据。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、机器人控制等领域。例如,可以用于创建更逼真的虚拟人物交互体验,或者用于训练机器人完成特定的人-物交互任务。此外,该方法还可以扩展到其他类型的对象交互生成,具有广泛的应用前景。

📄 摘要(原文)

We present DreamHOI, a novel method for zero-shot synthesis of human-object interactions (HOIs), enabling a 3D human model to realistically interact with any given object based on a textual description. This task is complicated by the varying categories and geometries of real-world objects and the scarcity of datasets encompassing diverse HOIs. To circumvent the need for extensive data, we leverage text-to-image diffusion models trained on billions of image-caption pairs. We optimize the articulation of a skinned human mesh using Score Distillation Sampling (SDS) gradients obtained from these models, which predict image-space edits. However, directly backpropagating image-space gradients into complex articulation parameters is ineffective due to the local nature of such gradients. To overcome this, we introduce a dual implicit-explicit representation of a skinned mesh, combining (implicit) neural radiance fields (NeRFs) with (explicit) skeleton-driven mesh articulation. During optimization, we transition between implicit and explicit forms, grounding the NeRF generation while refining the mesh articulation. We validate our approach through extensive experiments, demonstrating its effectiveness in generating realistic HOIs.