COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models

作者: Divyanshu Daiya, Damon Conover, Aniket Bera

分类: cs.LG, cs.AI, cs.CV, cs.GR

发布日期: 2024-09-30

备注: 9 pages, 6 figures

💡 一句话要点

COLLAGE：利用分层潜在扩散和语言模型生成协同人-物-人交互

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机交互 运动生成 扩散模型 大型语言模型 分层VQ-VAE 协同交互 机器人 计算机视觉

📋 核心要点

现有方法缺乏在协同交互场景中生成逼真、多样化人-物-人交互的能力，数据集匮乏是主要挑战。
COLLAGE框架利用大型语言模型指导扩散模型，并结合分层VQ-VAE进行运动特征提取，实现可控且多样的交互生成。
实验表明，COLLAGE在生成协同人-物-人交互方面优于现有方法，为机器人、图形学等领域提供了新思路。

📝 摘要（中文）

我们提出了一个名为COLLAGE的新框架，用于生成协同的智能体-物体-智能体交互，该框架利用大型语言模型（LLM）和分层运动特定向量量化变分自编码器（VQ-VAE）。我们的模型通过结合LLM的知识和推理能力来指导生成式扩散模型，从而解决了该领域缺乏丰富数据集的问题。分层VQ-VAE架构在多个抽象层面上捕获不同的运动特定特征，避免了冗余概念，并实现了高效的多分辨率表示。我们引入了一个在潜在空间中运行的扩散模型，并结合LLM生成的运动规划线索来指导去噪过程，从而实现具有更大控制和多样性的提示特定运动生成。在CORE-4D和InterHuman数据集上的实验结果表明，我们的方法在生成逼真且多样化的协同人-物-人交互方面是有效的，优于最先进的方法。我们的工作为在机器人、图形和计算机视觉等各个领域中建模复杂交互开辟了新的可能性。

🔬 方法详解

问题定义：现有方法在生成协同人-物-人交互时面临挑战，主要痛点在于缺乏足够丰富的数据集来训练模型，难以捕捉复杂交互中的细微运动特征和协同关系。此外，现有方法在控制生成交互的多样性和逼真度方面也存在不足。

核心思路：COLLAGE的核心思路是利用大型语言模型（LLM）的知识和推理能力来弥补数据集的不足，并结合分层运动特定向量量化变分自编码器（VQ-VAE）来高效地表示和生成运动。通过LLM生成运动规划线索，引导扩散模型进行去噪，从而实现可控且多样的交互生成。

技术框架：COLLAGE框架包含以下主要模块：1) LLM运动规划模块：利用LLM生成运动规划线索，为后续的运动生成提供指导。2) 分层VQ-VAE：用于学习运动数据的潜在表示，并在多个抽象层面上捕获不同的运动特征。3) 扩散模型：在VQ-VAE的潜在空间中运行，利用LLM生成的运动规划线索进行条件生成，生成最终的协同交互运动。

关键创新：COLLAGE的关键创新在于：1) 结合LLM和扩散模型，利用LLM的知识来指导运动生成，解决了数据集不足的问题。2) 采用分层VQ-VAE，实现了运动数据的高效多分辨率表示，避免了冗余概念。3) 在潜在空间中进行扩散，提高了生成效率和多样性。

关键设计：分层VQ-VAE包含多个层级，每个层级捕获不同抽象程度的运动特征。扩散模型采用U-Net结构，并引入LLM生成的运动规划线索作为条件输入。损失函数包括VQ-VAE的重构损失和量化损失，以及扩散模型的去噪损失。

🖼️ 关键图片

📊 实验亮点

在CORE-4D和InterHuman数据集上的实验结果表明，COLLAGE在生成逼真且多样化的协同人-物-人交互方面优于现有方法。具体而言，COLLAGE在运动逼真度、多样性和协同性等指标上均取得了显著提升，证明了其有效性。相较于基线方法，COLLAGE能够生成更加自然流畅、符合物理规律的协同交互运动。

🎯 应用场景

COLLAGE框架具有广泛的应用前景，例如：1) 机器人：可用于生成机器人与人协同完成任务的运动轨迹，提高机器人的智能化水平。2) 计算机图形学：可用于生成逼真的人-物交互动画，提升虚拟现实和游戏体验。3) 计算机视觉：可用于理解和预测人类的协同行为，为智能监控和人机交互提供支持。该研究有望推动这些领域的发展，并为未来的智能系统设计提供新的思路。

📄 摘要（原文）

We propose a novel framework COLLAGE for generating collaborative agent-object-agent interactions by leveraging large language models (LLMs) and hierarchical motion-specific vector-quantized variational autoencoders (VQ-VAEs). Our model addresses the lack of rich datasets in this domain by incorporating the knowledge and reasoning abilities of LLMs to guide a generative diffusion model. The hierarchical VQ-VAE architecture captures different motion-specific characteristics at multiple levels of abstraction, avoiding redundant concepts and enabling efficient multi-resolution representation. We introduce a diffusion model that operates in the latent space and incorporates LLM-generated motion planning cues to guide the denoising process, resulting in prompt-specific motion generation with greater control and diversity. Experimental results on the CORE-4D, and InterHuman datasets demonstrate the effectiveness of our approach in generating realistic and diverse collaborative human-object-human interactions, outperforming state-of-the-art methods. Our work opens up new possibilities for modeling complex interactions in various domains, such as robotics, graphics and computer vision.

COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理