Global Position Aware Group Choreography using Large Language Model
作者: Haozhou Pang, Tianwei Ding, Lanshan He, Qi Gan
分类: cs.GR, cs.CL, cs.CV
发布日期: 2025-03-12
💡 一句话要点
提出基于大语言模型的全局位置感知群舞编排框架,实现高质量多人舞蹈生成。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 群舞生成 大语言模型 舞蹈编排 序列到序列 音乐相关性
📋 核心要点
- 现有多人舞蹈生成方法仍处于初步阶段,难以保证舞蹈的音乐相关性、多样性和舞者间的一致性。
- 将群舞生成建模为序列到序列的翻译任务,利用大语言模型学习音频与舞蹈动作之间的复杂关系。
- 通过token化输入模态和优化LLM训练策略,生成逼真、多样且音乐相关的群舞,并保持舞者间动作协调。
📝 摘要(中文)
舞蹈是人类文化深刻而普遍的表达形式,通过与音乐同步的动作传递情感和故事。虽然目前的一些工作在单人舞蹈生成任务中取得了令人满意的结果,但多人舞蹈生成领域仍然相对较新。本文提出了一种群舞编排框架,该框架利用大语言模型(LLM)的最新进展,将群舞生成问题建模为序列到序列的翻译任务。我们的框架包括一个将连续特征转换为离散token的tokenizer,以及一个经过微调的LLM,用于预测给定音频token的运动token。我们表明,通过对输入模态进行适当的token化以及精心设计LLM训练策略,我们的框架可以生成逼真且多样化的群舞,同时保持强大的音乐相关性和舞者间的一致性。广泛的实验和评估表明,我们的框架实现了最先进的性能。
🔬 方法详解
问题定义:论文旨在解决多人舞蹈生成问题,现有方法难以生成具有音乐相关性、多样性和舞者间一致性的高质量群舞。痛点在于如何有效地建模音乐与多人舞蹈动作之间的复杂关系,并保证生成舞蹈的整体协调性。
核心思路:论文的核心思路是将群舞生成问题转化为序列到序列的翻译任务,利用大语言模型(LLM)学习音频token到舞蹈动作token的映射关系。通过将连续的音频和舞蹈动作特征离散化为token,使得LLM能够像处理自然语言一样处理舞蹈生成任务。
技术框架:整体框架包含两个主要模块:Tokenizer和LLM。Tokenizer负责将连续的音频特征和舞蹈动作特征转换为离散的token序列。LLM则是一个经过微调的Transformer模型,用于预测给定音频token序列的舞蹈动作token序列。训练过程中,LLM以音频token作为输入,预测对应的舞蹈动作token,并通过优化损失函数来学习音频与舞蹈动作之间的映射关系。
关键创新:论文的关键创新在于将大语言模型应用于多人舞蹈生成任务,并提出了一种有效的tokenization方法和LLM训练策略。通过将连续特征离散化为token,使得LLM能够更好地学习音频与舞蹈动作之间的复杂关系,从而生成更逼真、多样且音乐相关的群舞。
关键设计:Tokenizer的设计至关重要,需要选择合适的量化方法和token数量,以保证信息的有效编码和解码。LLM的训练策略包括数据增强、学习率调整和正则化等技术,以提高模型的泛化能力和鲁棒性。损失函数通常采用交叉熵损失,用于衡量模型预测的舞蹈动作token与真实token之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在多人舞蹈生成任务中取得了state-of-the-art的性能。通过与现有方法进行对比,该框架生成的舞蹈在音乐相关性、多样性和舞者间一致性方面均有显著提升。具体指标数据(如FID、音乐相关性得分等)在论文中进行了详细展示。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、在线教育等领域,例如,可以为虚拟角色生成逼真的舞蹈动作,为游戏玩家提供个性化的舞蹈体验,或为舞蹈学习者提供智能化的教学辅助。此外,该技术还可用于创作具有特定风格和主题的舞蹈作品,为艺术创作提供新的可能性。
📄 摘要(原文)
Dance serves as a profound and universal expression of human culture, conveying emotions and stories through movements synchronized with music. Although some current works have achieved satisfactory results in the task of single-person dance generation, the field of multi-person dance generation remains relatively novel. In this work, we present a group choreography framework that leverages recent advancements in Large Language Models (LLM) by modeling the group dance generation problem as a sequence-to-sequence translation task. Our framework consists of a tokenizer that transforms continuous features into discrete tokens, and an LLM that is fine-tuned to predict motion tokens given the audio tokens. We show that by proper tokenization of input modalities and careful design of the LLM training strategies, our framework can generate realistic and diverse group dances while maintaining strong music correlation and dancer-wise consistency. Extensive experiments and evaluations demonstrate that our framework achieves state-of-the-art performance.