Auto-Regressive Diffusion for Generating 3D Human-Object Interactions

📄 arXiv: 2503.16801v1 📥 PDF

作者: Zichen Geng, Zeeshan Hayder, Wei Liu, Ajmal Saeed Mian

分类: cs.GR, cs.AI, cs.CV

发布日期: 2025-03-21


💡 一句话要点

提出基于自回归扩散模型的ARDHOI,用于生成一致的3D人-物交互动作

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物交互生成 自回归扩散模型 Mamba架构 对比变分自编码器 文本驱动生成

📋 核心要点

  1. 现有Text-to-Motion方法难以直接应用于HOI生成,主要由于HOI数据稀缺和模态复杂性,导致交互一致性难以保证。
  2. 提出自回归扩散模型ARDHOI,利用对比变分自编码器(cVAE)学习HOI token的合理空间,并用Mamba编码器保持序列一致性。
  3. 在OMOMO和BEHAVE数据集上,ARDHOI在性能和推理速度上均超越现有方法,验证了其在文本驱动HOI任务中的有效性。

📝 摘要(中文)

本文提出了一种用于生成文本驱动的人-物交互(Text-to-HOI)的自回归扩散模型(ARDHOI)。该模型旨在解决HOI生成中长序列交互一致性的关键挑战。现有基于Text-to-Motion的方法,如离散运动标记化,由于该领域数据有限和模态复杂性,无法直接应用于HOI生成。为了解决这个问题,我们提出ARDHOI,它预测下一个连续token。具体来说,我们引入了一个对比变分自编码器(cVAE)来学习连续HOI token的物理上合理的空间,从而确保生成的人-物运动是真实和自然的。为了自回归地生成序列,我们开发了一个基于Mamba的上下文编码器来捕获和保持一致的序列动作。此外,我们实现了一个基于MLP的去噪器,用于生成以编码上下文为条件的后续token。我们的模型在OMOMO和BEHAVE数据集上进行了评估,其性能和推理速度均优于现有的state-of-the-art方法。这使得ARDHOI成为文本驱动HOI任务的强大而有效的解决方案。

🔬 方法详解

问题定义:论文旨在解决文本驱动的3D人-物交互(HOI)生成任务中,长序列交互一致性难以保证的问题。现有方法,如基于离散运动tokenization的方法,由于HOI数据量少且模态复杂,无法直接迁移应用,导致生成的HOI动作不自然、不连贯。

核心思路:论文的核心思路是利用自回归扩散模型,将HOI生成过程建模为连续token的预测问题。通过学习HOI token的物理合理空间,并利用上下文编码器捕获序列依赖关系,从而生成更自然、更连贯的HOI动作序列。这样避免了离散tokenization带来的信息损失,并能更好地利用连续空间的平滑性。

技术框架:ARDHOI模型主要包含三个模块:1) 对比变分自编码器(cVAE):用于学习HOI token的潜在空间,确保生成动作的物理合理性。2) 基于Mamba的上下文编码器:用于捕获和保持序列动作的一致性,Mamba架构擅长处理长序列依赖关系。3) 基于MLP的去噪器:用于在给定编码上下文的条件下,预测下一个HOI token。整体流程是,首先使用cVAE将HOI数据编码到潜在空间,然后使用Mamba编码器对上下文进行编码,最后使用MLP去噪器预测下一个token,并重复此过程以生成整个序列。

关键创新:论文的关键创新在于将自回归扩散模型与Mamba架构相结合,用于连续HOI token的生成。与现有基于离散tokenization的方法相比,该方法能够更好地捕捉HOI动作的连续性和依赖关系,从而生成更自然、更连贯的交互序列。此外,cVAE的使用保证了生成动作的物理合理性。

关键设计:cVAE采用对比学习的方式,鼓励学习到的潜在空间能够区分不同HOI动作。Mamba编码器采用选择性状态空间模型,能够高效地处理长序列依赖关系。MLP去噪器采用多层感知机结构,用于预测下一个HOI token。具体的损失函数包括cVAE的重构损失和对比损失,以及扩散模型的去噪损失。参数设置方面,需要根据数据集的大小和复杂度调整cVAE的潜在空间维度、Mamba编码器的层数和隐藏层大小,以及MLP去噪器的层数和隐藏层大小。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ARDHOI模型在OMOMO和BEHAVE数据集上取得了显著的性能提升,超越了现有的state-of-the-art方法。实验结果表明,ARDHOI不仅能够生成更逼真、更连贯的HOI动作序列,而且具有更快的推理速度,使其成为一个实用且高效的解决方案。具体性能数据未知,但摘要强调了其优于现有方法。

🎯 应用场景

该研究成果可广泛应用于动画制作、视频游戏开发、虚拟现实和机器人等领域。例如,可以根据文本描述自动生成虚拟角色的交互动画,提升游戏和VR体验的真实感和沉浸感。在机器人领域,可以帮助机器人理解人类指令,并生成相应的交互动作,从而实现更智能的人机协作。

📄 摘要(原文)

Text-driven Human-Object Interaction (Text-to-HOI) generation is an emerging field with applications in animation, video games, virtual reality, and robotics. A key challenge in HOI generation is maintaining interaction consistency in long sequences. Existing Text-to-Motion-based approaches, such as discrete motion tokenization, cannot be directly applied to HOI generation due to limited data in this domain and the complexity of the modality. To address the problem of interaction consistency in long sequences, we propose an autoregressive diffusion model (ARDHOI) that predicts the next continuous token. Specifically, we introduce a Contrastive Variational Autoencoder (cVAE) to learn a physically plausible space of continuous HOI tokens, thereby ensuring that generated human-object motions are realistic and natural. For generating sequences autoregressively, we develop a Mamba-based context encoder to capture and maintain consistent sequential actions. Additionally, we implement an MLP-based denoiser to generate the subsequent token conditioned on the encoded context. Our model has been evaluated on the OMOMO and BEHAVE datasets, where it outperforms existing state-of-the-art methods in terms of both performance and inference speed. This makes ARDHOI a robust and efficient solution for text-driven HOI tasks