InterMask: 3D Human Interaction Generation via Collaborative Masked Modeling

📄 arXiv: 2410.10010v3 📥 PDF

作者: Muhammad Gohar Javed, Chuan Guo, Li Cheng, Xingyu Li

分类: cs.CV

发布日期: 2024-10-13 (更新: 2025-03-02)

备注: Project webpage: https://gohar-malik.github.io/intermask


💡 一句话要点

InterMask:通过协同掩码建模生成逼真3D人际互动

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 人际互动生成 3D人体动作 掩码建模 Transformer VQ-VAE

📋 核心要点

  1. 现有基于扩散模型的人际互动生成方法,通常缺乏真实性和保真度,难以生成逼真结果。
  2. InterMask采用协同掩码建模,将运动序列转换为2D离散token图,并使用Transformer架构建模个体间的时空依赖。
  3. InterMask在InterHuman和InterX数据集上取得了SOTA结果,FID指标显著优于现有方法,且无需微调即可支持反应生成。

📝 摘要(中文)

本文提出InterMask,一个用于生成人际互动的新框架,它使用离散空间中的协同掩码建模。InterMask首先使用VQ-VAE将每个运动序列转换为2D离散运动token图。与传统的1D VQ token图不同,它更好地保留了细粒度的时空细节,并增强了每个token内的空间感知。在此基础上,InterMask利用生成式掩码建模框架来协同建模两个交互个体的token。这通过采用专门设计的Transformer架构来实现,该架构旨在捕获复杂的时空相互依赖关系。在训练期间,它随机掩盖两个个体的运动token并学习预测它们。对于推理,从完全掩盖的序列开始,它逐步填充两个个体的token。凭借其增强的运动表示、专用架构和有效的学习策略,InterMask实现了最先进的结果,生成了高保真度和多样化的人际互动。它优于以前的方法,在InterHuman数据集上实现了5.154的FID(in2IN为5.535),在InterX数据集上实现了0.399的FID(InterGen为5.207)。此外,InterMask无缝支持反应生成,而无需模型重新设计或微调。

🔬 方法详解

问题定义:现有方法在生成3D人际互动时,生成的动作不够真实和自然,缺乏细粒度的时空细节,难以捕捉人与人之间的复杂互动关系。尤其是在文本描述驱动的生成任务中,如何保证生成动作与文本描述的一致性,并提高生成结果的保真度是一个挑战。

核心思路:InterMask的核心思路是利用协同掩码建模,在离散空间中学习人际互动的潜在表示。通过将运动序列转换为2D离散token图,更好地保留时空细节,并利用Transformer架构建模个体间的相互依赖关系。这种方法旨在提高生成动作的真实性和多样性,并更好地捕捉人际互动的复杂性。

技术框架:InterMask的整体框架包括以下几个主要模块:1) VQ-VAE:将连续的运动序列编码为离散的2D token图。2) Transformer架构:用于建模两个交互个体的token之间的时空依赖关系。3) 掩码建模:在训练过程中,随机掩盖token并学习预测它们。4) 推理过程:从完全掩盖的序列开始,逐步填充token,生成最终的互动动作。

关键创新:InterMask的关键创新在于:1) 提出了2D 离散运动token图,相比于1D token图,更好地保留了时空细节,并增强了空间感知能力。2) 采用了协同掩码建模,同时对两个交互个体的token进行掩码和预测,从而更好地学习个体间的相互依赖关系。3) 设计了专门的Transformer架构,用于捕捉复杂的时空相互依赖关系。

关键设计:InterMask的关键设计包括:1) 使用VQ-VAE进行离散化,具体参数设置未知。2) Transformer架构的具体层数、头数和隐藏层维度未知。3) 掩码策略:随机掩盖一定比例的token,具体比例未知。4) 损失函数:用于训练Transformer的损失函数,可能包括交叉熵损失等,具体形式未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InterMask在InterHuman数据集上取得了5.154的FID,优于in2IN的5.535;在InterX数据集上取得了0.399的FID,优于InterGen的5.207。这些结果表明,InterMask在生成高保真度和多样化的人际互动方面具有显著优势。此外,InterMask无需重新设计或微调即可支持反应生成,体现了其良好的泛化能力。

🎯 应用场景

InterMask在虚拟现实、游戏开发、动画制作等领域具有广泛的应用前景。它可以用于生成逼真的人际互动场景,例如虚拟社交、角色扮演游戏、动画电影等。此外,InterMask还可以用于训练机器人,使其能够更好地与人进行互动,例如服务机器人、陪伴机器人等。该研究的未来影响在于能够提升人机交互的自然性和真实感。

📄 摘要(原文)

Generating realistic 3D human-human interactions from textual descriptions remains a challenging task. Existing approaches, typically based on diffusion models, often produce results lacking realism and fidelity. In this work, we introduce InterMask, a novel framework for generating human interactions using collaborative masked modeling in discrete space. InterMask first employs a VQ-VAE to transform each motion sequence into a 2D discrete motion token map. Unlike traditional 1D VQ token maps, it better preserves fine-grained spatio-temporal details and promotes spatial awareness within each token. Building on this representation, InterMask utilizes a generative masked modeling framework to collaboratively model the tokens of two interacting individuals. This is achieved by employing a transformer architecture specifically designed to capture complex spatio-temporal inter-dependencies. During training, it randomly masks the motion tokens of both individuals and learns to predict them. For inference, starting from fully masked sequences, it progressively fills in the tokens for both individuals. With its enhanced motion representation, dedicated architecture, and effective learning strategy, InterMask achieves state-of-the-art results, producing high-fidelity and diverse human interactions. It outperforms previous methods, achieving an FID of $5.154$ (vs $5.535$ of in2IN) on the InterHuman dataset and $0.399$ (vs $5.207$ of InterGen) on the InterX dataset. Additionally, InterMask seamlessly supports reaction generation without the need for model redesign or fine-tuning.