COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models
作者: Divyanshu Daiya, Damon Conover, Aniket Bera
分类: cs.LG, cs.AI, cs.CV, cs.GR
发布日期: 2024-09-30
备注: 9 pages, 6 figures
💡 一句话要点
COLLAGE:利用分层潜在扩散和语言模型生成协同人-物-人交互
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机交互 运动生成 扩散模型 大型语言模型 分层VQ-VAE 协同交互 机器人 计算机视觉
📋 核心要点
- 现有方法缺乏在协同交互场景中生成逼真、多样化人-物-人交互的能力,数据集匮乏是主要挑战。
- COLLAGE框架利用大型语言模型指导扩散模型,并结合分层VQ-VAE进行运动特征提取,实现可控且多样的交互生成。
- 实验表明,COLLAGE在生成协同人-物-人交互方面优于现有方法,为机器人、图形学等领域提供了新思路。
📝 摘要(中文)
我们提出了一个名为COLLAGE的新框架,用于生成协同的智能体-物体-智能体交互,该框架利用大型语言模型(LLM)和分层运动特定向量量化变分自编码器(VQ-VAE)。我们的模型通过结合LLM的知识和推理能力来指导生成式扩散模型,从而解决了该领域缺乏丰富数据集的问题。分层VQ-VAE架构在多个抽象层面上捕获不同的运动特定特征,避免了冗余概念,并实现了高效的多分辨率表示。我们引入了一个在潜在空间中运行的扩散模型,并结合LLM生成的运动规划线索来指导去噪过程,从而实现具有更大控制和多样性的提示特定运动生成。在CORE-4D和InterHuman数据集上的实验结果表明,我们的方法在生成逼真且多样化的协同人-物-人交互方面是有效的,优于最先进的方法。我们的工作为在机器人、图形和计算机视觉等各个领域中建模复杂交互开辟了新的可能性。
🔬 方法详解
问题定义:现有方法在生成协同人-物-人交互时面临挑战,主要痛点在于缺乏足够丰富的数据集来训练模型,难以捕捉复杂交互中的细微运动特征和协同关系。此外,现有方法在控制生成交互的多样性和逼真度方面也存在不足。
核心思路:COLLAGE的核心思路是利用大型语言模型(LLM)的知识和推理能力来弥补数据集的不足,并结合分层运动特定向量量化变分自编码器(VQ-VAE)来高效地表示和生成运动。通过LLM生成运动规划线索,引导扩散模型进行去噪,从而实现可控且多样的交互生成。
技术框架:COLLAGE框架包含以下主要模块:1) LLM运动规划模块:利用LLM生成运动规划线索,为后续的运动生成提供指导。2) 分层VQ-VAE:用于学习运动数据的潜在表示,并在多个抽象层面上捕获不同的运动特征。3) 扩散模型:在VQ-VAE的潜在空间中运行,利用LLM生成的运动规划线索进行条件生成,生成最终的协同交互运动。
关键创新:COLLAGE的关键创新在于:1) 结合LLM和扩散模型,利用LLM的知识来指导运动生成,解决了数据集不足的问题。2) 采用分层VQ-VAE,实现了运动数据的高效多分辨率表示,避免了冗余概念。3) 在潜在空间中进行扩散,提高了生成效率和多样性。
关键设计:分层VQ-VAE包含多个层级,每个层级捕获不同抽象程度的运动特征。扩散模型采用U-Net结构,并引入LLM生成的运动规划线索作为条件输入。损失函数包括VQ-VAE的重构损失和量化损失,以及扩散模型的去噪损失。
🖼️ 关键图片
📊 实验亮点
在CORE-4D和InterHuman数据集上的实验结果表明,COLLAGE在生成逼真且多样化的协同人-物-人交互方面优于现有方法。具体而言,COLLAGE在运动逼真度、多样性和协同性等指标上均取得了显著提升,证明了其有效性。相较于基线方法,COLLAGE能够生成更加自然流畅、符合物理规律的协同交互运动。
🎯 应用场景
COLLAGE框架具有广泛的应用前景,例如:1) 机器人:可用于生成机器人与人协同完成任务的运动轨迹,提高机器人的智能化水平。2) 计算机图形学:可用于生成逼真的人-物交互动画,提升虚拟现实和游戏体验。3) 计算机视觉:可用于理解和预测人类的协同行为,为智能监控和人机交互提供支持。该研究有望推动这些领域的发展,并为未来的智能系统设计提供新的思路。
📄 摘要(原文)
We propose a novel framework COLLAGE for generating collaborative agent-object-agent interactions by leveraging large language models (LLMs) and hierarchical motion-specific vector-quantized variational autoencoders (VQ-VAEs). Our model addresses the lack of rich datasets in this domain by incorporating the knowledge and reasoning abilities of LLMs to guide a generative diffusion model. The hierarchical VQ-VAE architecture captures different motion-specific characteristics at multiple levels of abstraction, avoiding redundant concepts and enabling efficient multi-resolution representation. We introduce a diffusion model that operates in the latent space and incorporates LLM-generated motion planning cues to guide the denoising process, resulting in prompt-specific motion generation with greater control and diversity. Experimental results on the CORE-4D, and InterHuman datasets demonstrate the effectiveness of our approach in generating realistic and diverse collaborative human-object-human interactions, outperforming state-of-the-art methods. Our work opens up new possibilities for modeling complex interactions in various domains, such as robotics, graphics and computer vision.