Controllable Human-Object Interaction Synthesis

📄 arXiv: 2312.03913v2 📥 PDF

作者: Jiaman Li, Alexander Clegg, Roozbeh Mottaghi, Jiajun Wu, Xavier Puig, C. Karen Liu

分类: cs.CV

发布日期: 2023-12-06 (更新: 2024-07-14)

备注: ECCV 2024, project webpage: https://lijiaman.github.io/projects/chois/


💡 一句话要点

提出CHOIS,通过条件扩散模型生成可控的人-物交互运动

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物交互 运动合成 条件扩散模型 语言描述 场景约束

📋 核心要点

  1. 现有方法难以生成符合语言描述和场景约束的逼真人-物交互运动,尤其是在长时序交互中。
  2. CHOIS利用条件扩散模型,结合语言描述和物体路标点,同步生成人体和物体运动,保证交互的语义性和场景一致性。
  3. 通过引入物体几何损失和接触约束引导项,CHOIS显著提升了生成运动与路标点的对齐程度和交互的真实性。

📝 摘要(中文)

本文旨在解决在3D场景中,根据语言描述生成同步的物体和人体运动这一具有挑战性的问题。我们提出了可控的人-物交互合成(CHOIS),该方法利用条件扩散模型,在给定语言描述、初始物体和人体状态以及稀疏物体路标点的情况下,同时生成物体和人体运动。语言描述用于指导风格和意图,路标点则将运动锚定在场景中。直接应用扩散模型难以预测与输入路标点对齐的物体运动,也无法保证需要精确手-物和人-地接触的交互的真实性。为了解决这些问题,我们引入了物体几何损失作为额外的监督,以改善生成的物体运动与输入物体路标点之间的匹配;我们还设计了引导项,以在训练后的扩散模型的采样过程中强制执行接触约束。实验表明,我们学习的交互模块可以合成逼真的人-物交互,并符合提供的文本描述和稀疏路标点条件。此外,我们的模块可以与路径规划模块无缝集成,从而能够在3D环境中生成长期交互。

🔬 方法详解

问题定义:现有方法在生成人-物交互运动时,难以同时满足语义一致性、场景约束和交互真实性。尤其是在长时序交互中,如何根据语言描述和场景中的物体路标点,生成符合人类行为习惯的运动序列是一个挑战。现有的扩散模型难以保证生成运动与路标点的精确对齐,也难以处理需要精确接触的交互。

核心思路:CHOIS的核心思路是利用条件扩散模型,将语言描述和物体路标点作为条件,指导人体和物体运动的生成过程。通过引入额外的损失函数和引导项,来约束生成运动与路标点的对齐,并保证交互的真实性。这种方法能够有效地结合语言的语义信息和场景的几何信息,生成更加自然和可控的人-物交互运动。

技术框架:CHOIS的整体框架包含一个条件扩散模型,该模型以语言描述、初始物体和人体状态以及稀疏物体路标点作为输入,输出人体和物体运动序列。框架包含以下主要模块:1) 运动生成模块:使用条件扩散模型生成人体和物体运动;2) 物体几何损失模块:计算生成物体运动与输入路标点之间的几何损失;3) 接触约束引导模块:在扩散模型的采样过程中,强制执行接触约束。

关键创新:CHOIS的关键创新在于:1) 提出了一种基于条件扩散模型的人-物交互运动生成方法,能够同时考虑语言描述和场景约束;2) 引入了物体几何损失,有效地提高了生成运动与路标点的对齐程度;3) 设计了接触约束引导项,保证了交互的真实性,避免了穿透等不自然现象。

关键设计:在扩散模型中,语言描述通过文本编码器进行编码,并作为条件输入到扩散模型中。物体几何损失定义为生成物体运动与路标点之间的距离。接触约束引导项通过在采样过程中添加额外的梯度信息,来强制执行接触约束。具体的网络结构和参数设置未知。

📊 实验亮点

实验结果表明,CHOIS能够生成符合语言描述和场景约束的逼真人-物交互运动。通过引入物体几何损失和接触约束引导项,CHOIS显著提升了生成运动与路标点的对齐程度和交互的真实性。具体性能数据和对比基线未知。

🎯 应用场景

CHOIS可应用于虚拟现实、游戏开发、机器人仿真等领域。例如,在虚拟现实中,可以根据用户的语言指令,生成逼真的人-物交互场景,提升用户体验。在机器人仿真中,可以用于训练机器人执行复杂的人-物交互任务,提高机器人的智能化水平。该研究的未来影响在于推动人机交互和机器人技术的进步。

📄 摘要(原文)

Synthesizing semantic-aware, long-horizon, human-object interaction is critical to simulate realistic human behaviors. In this work, we address the challenging problem of generating synchronized object motion and human motion guided by language descriptions in 3D scenes. We propose Controllable Human-Object Interaction Synthesis (CHOIS), an approach that generates object motion and human motion simultaneously using a conditional diffusion model given a language description, initial object and human states, and sparse object waypoints. Here, language descriptions inform style and intent, and waypoints, which can be effectively extracted from high-level planning, ground the motion in the scene. Naively applying a diffusion model fails to predict object motion aligned with the input waypoints; it also cannot ensure the realism of interactions that require precise hand-object and human-floor contact. To overcome these problems, we introduce an object geometry loss as additional supervision to improve the matching between generated object motion and input object waypoints; we also design guidance terms to enforce contact constraints during the sampling process of the trained diffusion model. We demonstrate that our learned interaction module can synthesize realistic human-object interactions, adhering to provided textual descriptions and sparse waypoint conditions. Additionally, our module seamlessly integrates with a path planning module, enabling the generation of long-term interactions in 3D environments.