SalsaAgent: A multimodal embodied language model for interactive dance generation

作者: Payam Jome Yazdian, Zoe Stanley, Angelica Lim

分类: cs.CV

发布日期: 2026-05-28

💡 一句话要点

SalsaAgent：提出一种多模态具身语言模型，用于生成交互式舞蹈动作。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 多模态学习 语言模型 舞蹈生成 人机交互

📋 核心要点

现有的人形交互缺乏双向反应、协调和同步，SalsaAgent旨在解决这一问题，实现更自然的社交互动。
SalsaAgent的核心思想是将交互建模为运动token传递，扩展LLM以处理运动、关系和音频信息，实现舞蹈动作生成。
实验结果表明，SalsaAgent在运动质量、音乐协调和双人空间行为方面均优于基线方法，证明了其有效性。

📝 摘要（中文）

本文提出SalsaAgent，一个语言模型，能够生成富有表现力的全身莎莎舞动作，以响应人类舞伴的引导，并配合背景音乐。该模型旨在促进具有社交意识的机器人和交互式虚拟代理的开发。论文将人机交互建模为非语言的运动token传递，扩展了大型语言模型（LLM）的词汇表，使其能够处理离散的运动token、成对关系token和音频。主要贡献包括：用于全身和运动关系的新token、使用自动生成的骨骼动力学文本描述进行token grounding的LLM微调，以及一个两阶段的token到扩散的生成流程。主观和客观评估表明，该方法在运动质量、音乐和舞伴协调以及一致的双人空间行为方面是有效的，并且相对于基线方法有显著改进。

🔬 方法详解

问题定义：论文旨在解决人机交互中，人形角色如何生成自然、协调且具有反应性的舞蹈动作的问题。现有方法在捕捉全身运动的复杂性、音乐的上下文信息以及舞伴之间的互动关系方面存在不足，导致生成的舞蹈动作不够真实和自然。

核心思路：论文的核心思路是将人机交互建模为非语言的运动token传递过程。通过扩展大型语言模型（LLM）的词汇表，使其能够处理离散的运动token、成对关系token和音频信息，从而实现对舞蹈动作的生成和控制。这种方法允许模型学习运动之间的依赖关系、音乐的节奏和情感，以及舞伴之间的互动模式。

技术框架：SalsaAgent的技术框架主要包含以下几个模块：1) Token化模块：将全身运动数据、音乐数据和舞伴关系数据转换为离散的token序列。2) LLM微调模块：使用自动生成的骨骼动力学文本描述对LLM进行微调，以实现token grounding，即建立token与实际运动之间的对应关系。3) Token到扩散的生成流程：采用两阶段的生成流程，首先使用LLM生成运动token序列，然后使用扩散模型将token序列转换为连续的运动轨迹。

关键创新：论文的关键创新在于：1) 提出了用于全身和运动关系的新token，能够更全面地描述运动的细节和舞伴之间的互动关系。2) 使用自动生成的骨骼动力学文本描述对LLM进行微调，实现了token grounding，提高了生成运动的质量和可控性。3) 提出了两阶段的token到扩散的生成流程，结合了LLM的生成能力和扩散模型的平滑能力，生成更自然和流畅的舞蹈动作。

关键设计：在token化模块中，论文设计了专门的token来表示全身运动的关键关节位置和旋转信息。在LLM微调模块中，论文使用了Transformer架构的LLM，并采用了交叉熵损失函数进行训练。在扩散模型中，论文使用了U-Net架构，并采用了高斯噪声作为扩散过程的噪声。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SalsaAgent在运动质量、音乐协调和双人空间行为方面均优于基线方法。具体来说，主观评估结果显示，SalsaAgent生成的舞蹈动作在流畅性、自然性和协调性方面显著优于基线方法。客观评估结果显示，SalsaAgent在音乐同步率和舞伴距离保持方面也取得了显著提升。这些结果证明了SalsaAgent在交互式舞蹈生成方面的有效性。

🎯 应用场景

SalsaAgent具有广泛的应用前景，可用于开发具有社交意识的机器人和虚拟代理，例如：舞蹈教学机器人、虚拟舞伴、游戏角色等。该技术还可以应用于康复训练、运动分析等领域，通过生成个性化的运动指导，帮助用户改善运动技能和身体健康。未来，SalsaAgent有望成为人机交互领域的重要技术，促进人与机器之间的更自然、更流畅的互动。

📄 摘要（原文）

Interaction between humanoids involves bidirectional and nonverbal reactivity, coordination and synchrony. Toward socially aware robots and interactive virtual agents, we present SalsaAgent, a language model that generates expressive, full-body salsa dance motions in reaction to a human leader and against a contextual music backdrop. We formulate interaction as nonverbal motion token passing, extending the vocabulary of a large language model (LLM) to process discrete motion tokens, pairwise relation tokens, and audio. Our contributions include new tokens for full-body and motion relations, LLM fine-tuning using automatically derived text descriptions of skeleton dynamics for token grounding, and a two-stage token-to-diffusion pipeline. Subjective and objective evaluations demonstrate the effectiveness of our approach in terms of motion quality, music and partner coordination, and consistent two-person spatial behavior, with significant improvements over baselines.

SalsaAgent: A multimodal embodied language model for interactive dance generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理