OOD-HOI: Text-Driven 3D Whole-Body Human-Object Interactions Generation Beyond Training Domains

📄 arXiv: 2411.18660v1 📥 PDF

作者: Yixuan Zhang, Hui Yang, Chuanchen Luo, Junran Peng, Yuxi Wang, Zhaoxiang Zhang

分类: cs.CV

发布日期: 2024-11-27


💡 一句话要点

提出OOD-HOI框架,解决文本驱动的3D全身人-物交互生成在域外泛化性问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物交互 3D生成 扩散模型 域外泛化 全身建模

📋 核心要点

  1. 现有方法在生成3D人-物交互时,缺乏大规模交互数据,难以保证物理合理性,尤其是在域外场景中。
  2. OOD-HOI框架通过双分支互惠扩散模型生成初始姿势,并利用接触引导的细化器和动态适应机制提升物理合理性和鲁棒性。
  3. 实验结果表明,OOD-HOI在域外场景中生成了更逼真和物理上合理的人-物交互姿势,优于现有方法。

📝 摘要(中文)

本文提出OOD-HOI,一个文本驱动的框架,用于生成能够很好地泛化到新物体和动作的全身人-物交互(HOI)。该方法集成了一个双分支互惠扩散模型来合成初始交互姿势,一个接触引导的交互细化器来基于预测的接触区域提高物理准确性,以及一个动态适应机制,包括语义调整和几何形变,以提高鲁棒性。实验结果表明,与现有方法相比,我们的OOD-HOI可以在OOD场景中生成更逼真和物理上合理的3D交互姿势。

🔬 方法详解

问题定义:现有文本驱动的3D人-物交互生成方法,尤其是在域外(OOD)场景下,面临着数据稀缺和物理合理性难以保证的问题。现有方法通常只关注身体或手部,无法生成连贯和逼真的全身交互。

核心思路:OOD-HOI的核心思路是利用扩散模型生成初始交互姿势,然后通过接触信息引导的细化器来提高物理合理性,最后通过动态适应机制来增强模型的鲁棒性,使其能够更好地泛化到新的物体和动作。

技术框架:OOD-HOI框架包含三个主要模块:1) 双分支互惠扩散模型:用于生成初始的人-物交互姿势。2) 接触引导的交互细化器:基于预测的接触区域,对初始姿势进行优化,提高物理合理性。3) 动态适应机制:包括语义调整和几何形变,用于处理域外场景中的新物体和动作,提高模型的鲁棒性。

关键创新:OOD-HOI的关键创新在于其集成了扩散模型、接触引导细化和动态适应机制,从而能够在域外场景下生成更逼真和物理上合理的人-物交互。与现有方法相比,OOD-HOI更关注全身交互,并能够更好地处理新物体和动作。

关键设计:双分支互惠扩散模型可能采用了条件扩散模型,分别对人和物体进行建模,并利用互惠机制来保证两者之间的协调性。接触引导的交互细化器可能使用了图神经网络或卷积神经网络来预测接触区域,并利用这些信息来优化姿势。动态适应机制可能使用了对抗训练或自监督学习来提高模型的鲁棒性。具体的损失函数和网络结构等细节在论文中应该有更详细的描述。

📊 实验亮点

论文通过实验验证了OOD-HOI在域外场景下的有效性。实验结果表明,与现有方法相比,OOD-HOI能够生成更逼真和物理上合理的人-物交互姿势。具体的性能数据和提升幅度需要在论文中查找。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、机器人和动画等领域。例如,可以用于创建更逼真的虚拟角色交互,训练机器人进行复杂的操作任务,以及生成高质量的动画内容。该技术有助于提升用户体验,降低开发成本,并推动相关产业的发展。

📄 摘要(原文)

Generating realistic 3D human-object interactions (HOIs) from text descriptions is a active research topic with potential applications in virtual and augmented reality, robotics, and animation. However, creating high-quality 3D HOIs remains challenging due to the lack of large-scale interaction data and the difficulty of ensuring physical plausibility, especially in out-of-domain (OOD) scenarios. Current methods tend to focus either on the body or the hands, which limits their ability to produce cohesive and realistic interactions. In this paper, we propose OOD-HOI, a text-driven framework for generating whole-body human-object interactions that generalize well to new objects and actions. Our approach integrates a dual-branch reciprocal diffusion model to synthesize initial interaction poses, a contact-guided interaction refiner to improve physical accuracy based on predicted contact areas, and a dynamic adaptation mechanism which includes semantic adjustment and geometry deformation to improve robustness. Experimental results demonstrate that our OOD-HOI could generate more realistic and physically plausible 3D interaction pose in OOD scenarios compared to existing methods.