Large Body Language Models
作者: Saif Punjwani, Larry Heck
分类: cs.AI, cs.CL, cs.CV, cs.LG
发布日期: 2024-10-21
💡 一句话要点
提出大型肢体语言模型LBLM-AVA,用于生成逼真且符合语境的虚拟人物实时手势。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 肢体语言模型 手势生成 人机交互 Transformer-XL 扩散模型 多模态融合 虚拟人物 Allo-AVA数据集
📋 核心要点
- 现有方法难以实时生成逼真且符合语境的虚拟人物手势,限制了人机交互的自然性。
- LBLM-AVA结合Transformer-XL和扩散模型,利用多模态输入生成类人手势,并引入多个模块提升生成质量。
- LBLM-AVA在Allo-AVA数据集上训练,实验表明其在手势生成方面达到了SOTA,FGD降低30%,FID提升25%。
📝 摘要(中文)
随着虚拟代理在人机交互中日益普及,实时生成逼真且符合语境的手势仍然是一个重大挑战。虽然神经渲染技术在静态脚本方面取得了显著进展,但它们在人机交互中的适用性仍然有限。为了解决这个问题,我们引入了大型肢体语言模型(LBLMs),并提出了LBLM-AVA,这是一种新颖的LBLM架构,它结合了Transformer-XL大型语言模型与并行化的扩散模型,以从多模态输入(文本、音频和视频)生成类人手势。LBLM-AVA包含几个关键组件,增强了其手势生成能力,例如多模态到姿势的嵌入、具有重新定义的注意力机制的增强序列到序列映射、用于手势序列连贯性的时间平滑模块以及用于增强真实感的基于注意力的细化模块。该模型在我们的大规模专有开源数据集Allo-AVA上进行训练。LBLM-AVA在生成逼真且符合语境的手势方面实现了最先进的性能,与现有方法相比,Fréchet手势距离(FGD)降低了30%,Fréchet Inception距离提高了25%。
🔬 方法详解
问题定义:论文旨在解决虚拟人物在人机交互中实时生成逼真、符合语境的手势这一难题。现有神经渲染技术虽然在静态脚本上表现良好,但难以适应动态的人机交互场景,缺乏足够的灵活性和泛化能力。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大建模能力,结合扩散模型生成高质量的手势。通过将多模态输入(文本、音频、视频)映射到姿势空间,并利用Transformer-XL进行序列建模,从而生成连贯且符合语境的手势序列。扩散模型则用于提升生成手势的真实感和细节。
技术框架:LBLM-AVA的整体架构包含以下几个主要模块:1) 多模态到姿势嵌入模块:将文本、音频和视频等输入转化为姿势嵌入表示。2) 基于Transformer-XL的序列到序列映射模块:利用Transformer-XL对姿势序列进行建模,生成初步的手势序列。该模块重新定义了注意力机制,以更好地捕捉手势之间的依赖关系。3) 时间平滑模块:用于平滑生成的手势序列,减少抖动和不自然的过渡。4) 基于注意力的细化模块:利用注意力机制对生成的手势进行细化,提升真实感和细节。
关键创新:LBLM-AVA的关键创新在于将大型语言模型与扩散模型相结合,并针对手势生成任务进行了优化。具体来说,重新定义的注意力机制、时间平滑模块和细化模块都是针对手势生成的特点而设计的,能够有效提升生成手势的质量和真实感。此外,大规模数据集Allo-AVA的构建也为模型的训练提供了充足的数据支持。
关键设计:论文中涉及的关键设计包括:1) 多模态嵌入方式的选择,需要平衡不同模态信息之间的融合。2) Transformer-XL的参数设置,例如层数、隐藏层大小等,需要根据数据集的大小进行调整。3) 扩散模型的训练目标和采样策略,需要保证生成手势的多样性和真实感。4) 时间平滑模块的平滑窗口大小和细化模块的注意力机制设计,需要根据实验结果进行优化。
🖼️ 关键图片
📊 实验亮点
LBLM-AVA在Allo-AVA数据集上进行了广泛的实验,结果表明其在生成逼真且符合语境的手势方面取得了显著的性能提升。与现有方法相比,LBLM-AVA的Fréchet手势距离(FGD)降低了30%,Fréchet Inception距离(FID)提高了25%。这些数据表明,LBLM-AVA能够生成更加自然、更加真实的虚拟人物手势。
🎯 应用场景
该研究成果可广泛应用于虚拟助手、游戏、虚拟现实、远程协作等领域。通过生成更自然、更具表现力的虚拟人物手势,可以显著提升用户体验,增强人机交互的沉浸感和真实感。未来,该技术有望进一步发展,实现更加智能、个性化的手势生成,为人们的生活和工作带来更多便利。
📄 摘要(原文)
As virtual agents become increasingly prevalent in human-computer interaction, generating realistic and contextually appropriate gestures in real-time remains a significant challenge. While neural rendering techniques have made substantial progress with static scripts, their applicability to human-computer interactions remains limited. To address this, we introduce Large Body Language Models (LBLMs) and present LBLM-AVA, a novel LBLM architecture that combines a Transformer-XL large language model with a parallelized diffusion model to generate human-like gestures from multimodal inputs (text, audio, and video). LBLM-AVA incorporates several key components enhancing its gesture generation capabilities, such as multimodal-to-pose embeddings, enhanced sequence-to-sequence mapping with redefined attention mechanisms, a temporal smoothing module for gesture sequence coherence, and an attention-based refinement module for enhanced realism. The model is trained on our large-scale proprietary open-source dataset Allo-AVA. LBLM-AVA achieves state-of-the-art performance in generating lifelike and contextually appropriate gestures with a 30% reduction in Fréchet Gesture Distance (FGD), and a 25% improvement in Fréchet Inception Distance compared to existing approaches.