SalsaAgent: A multimodal embodied language model for interactive dance generation
作者: Payam Jome Yazdian, Zoe Stanley, Angelica Lim
分类: cs.CV
发布日期: 2026-05-28
💡 一句话要点
SalsaAgent:提出一种多模态具身语言模型,用于生成交互式舞蹈动作。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 多模态学习 语言模型 舞蹈生成 人机交互
📋 核心要点
- 现有的人形交互缺乏双向反应、协调和同步,SalsaAgent旨在解决这一问题,实现更自然的社交互动。
- SalsaAgent的核心思想是将交互建模为运动token传递,扩展LLM以处理运动、关系和音频信息,实现舞蹈动作生成。
- 实验结果表明,SalsaAgent在运动质量、音乐协调和双人空间行为方面均优于基线方法,证明了其有效性。
📝 摘要(中文)
本文提出SalsaAgent,一个语言模型,能够生成富有表现力的全身莎莎舞动作,以响应人类舞伴的引导,并配合背景音乐。该模型旨在促进具有社交意识的机器人和交互式虚拟代理的开发。论文将人机交互建模为非语言的运动token传递,扩展了大型语言模型(LLM)的词汇表,使其能够处理离散的运动token、成对关系token和音频。主要贡献包括:用于全身和运动关系的新token、使用自动生成的骨骼动力学文本描述进行token grounding的LLM微调,以及一个两阶段的token到扩散的生成流程。主观和客观评估表明,该方法在运动质量、音乐和舞伴协调以及一致的双人空间行为方面是有效的,并且相对于基线方法有显著改进。
🔬 方法详解
问题定义:论文旨在解决人机交互中,人形角色如何生成自然、协调且具有反应性的舞蹈动作的问题。现有方法在捕捉全身运动的复杂性、音乐的上下文信息以及舞伴之间的互动关系方面存在不足,导致生成的舞蹈动作不够真实和自然。
核心思路:论文的核心思路是将人机交互建模为非语言的运动token传递过程。通过扩展大型语言模型(LLM)的词汇表,使其能够处理离散的运动token、成对关系token和音频信息,从而实现对舞蹈动作的生成和控制。这种方法允许模型学习运动之间的依赖关系、音乐的节奏和情感,以及舞伴之间的互动模式。
技术框架:SalsaAgent的技术框架主要包含以下几个模块:1) Token化模块:将全身运动数据、音乐数据和舞伴关系数据转换为离散的token序列。2) LLM微调模块:使用自动生成的骨骼动力学文本描述对LLM进行微调,以实现token grounding,即建立token与实际运动之间的对应关系。3) Token到扩散的生成流程:采用两阶段的生成流程,首先使用LLM生成运动token序列,然后使用扩散模型将token序列转换为连续的运动轨迹。
关键创新:论文的关键创新在于:1) 提出了用于全身和运动关系的新token,能够更全面地描述运动的细节和舞伴之间的互动关系。2) 使用自动生成的骨骼动力学文本描述对LLM进行微调,实现了token grounding,提高了生成运动的质量和可控性。3) 提出了两阶段的token到扩散的生成流程,结合了LLM的生成能力和扩散模型的平滑能力,生成更自然和流畅的舞蹈动作。
关键设计:在token化模块中,论文设计了专门的token来表示全身运动的关键关节位置和旋转信息。在LLM微调模块中,论文使用了Transformer架构的LLM,并采用了交叉熵损失函数进行训练。在扩散模型中,论文使用了U-Net架构,并采用了高斯噪声作为扩散过程的噪声。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SalsaAgent在运动质量、音乐协调和双人空间行为方面均优于基线方法。具体来说,主观评估结果显示,SalsaAgent生成的舞蹈动作在流畅性、自然性和协调性方面显著优于基线方法。客观评估结果显示,SalsaAgent在音乐同步率和舞伴距离保持方面也取得了显著提升。这些结果证明了SalsaAgent在交互式舞蹈生成方面的有效性。
🎯 应用场景
SalsaAgent具有广泛的应用前景,可用于开发具有社交意识的机器人和虚拟代理,例如:舞蹈教学机器人、虚拟舞伴、游戏角色等。该技术还可以应用于康复训练、运动分析等领域,通过生成个性化的运动指导,帮助用户改善运动技能和身体健康。未来,SalsaAgent有望成为人机交互领域的重要技术,促进人与机器之间的更自然、更流畅的互动。
📄 摘要(原文)
Interaction between humanoids involves bidirectional and nonverbal reactivity, coordination and synchrony. Toward socially aware robots and interactive virtual agents, we present SalsaAgent, a language model that generates expressive, full-body salsa dance motions in reaction to a human leader and against a contextual music backdrop. We formulate interaction as nonverbal motion token passing, extending the vocabulary of a large language model (LLM) to process discrete motion tokens, pairwise relation tokens, and audio. Our contributions include new tokens for full-body and motion relations, LLM fine-tuning using automatically derived text descriptions of skeleton dynamics for token grounding, and a two-stage token-to-diffusion pipeline. Subjective and objective evaluations demonstrate the effectiveness of our approach in terms of motion quality, music and partner coordination, and consistent two-person spatial behavior, with significant improvements over baselines.