BiTDiff: Fine-Grained 3D Conducting Motion Generation via BiMamba-Transformer Diffusion

作者: Tianzhi Jia, Kaixing Yang, Xiaole Yang, Xulong Tang, Ke Qiu, Shikui Wei, Yao Zhao

分类: cs.CV, cs.MM

发布日期: 2026-04-07

💡 一句话要点

BiTDiff：通过BiMamba-Transformer扩散模型实现精细的3D指挥动作生成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱六：视频提取与匹配 (Video Extraction) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 3D动作生成 指挥动作 扩散模型 BiMamba Transformer 长序列建模 人机交互

📋 核心要点

现有3D指挥动作生成方法缺乏大规模精细数据集，难以有效建模复杂的指挥动作。
BiTDiff提出了一种基于BiMamba-Transformer混合架构的扩散模型，用于高效长序列建模和高质量动作合成。
实验表明，BiTDiff在自建的CM-Data数据集上取得了SOTA性能，并支持免训练的关节级运动编辑。

📝 摘要（中文）

本文提出了一种名为BiTDiff的框架，用于从音乐中合成精细的3D指挥动作。该框架旨在解决3D指挥动作生成领域中数据匮乏和现有方法难以兼顾长序列生成的高质量与高效率的问题。为了解决数据限制，我们构建了一个高质量的3D指挥动作数据集CM-Data，其中包含约10小时的SMPL-X格式的指挥动作数据，是首个也是最大的公开3D指挥动作数据集。在方法上，BiTDiff基于BiMamba-Transformer混合模型架构，利用扩散模型和人体运动学分解策略，实现高效的长序列建模和高质量的动作合成。BiTDiff引入了辅助物理一致性损失和手/身体特定的前向运动学设计，以更好地建模精细动作，并利用BiMamba实现内存高效的长序列时间建模，以及Transformer实现跨模态语义对齐。此外，BiTDiff支持免训练的关节级运动编辑，从而支持下游人机交互设计。实验结果表明，BiTDiff在CM-Data数据集上实现了最先进的3D指挥动作生成性能。

🔬 方法详解

问题定义：3D指挥动作生成旨在从音乐中合成精细的指挥动作，但现有方法面临两个主要挑战：一是缺乏大规模的精细3D指挥数据集；二是缺乏能够同时支持高质量和高效率的长序列生成方法。现有方法难以兼顾生成质量和计算效率，尤其是在处理长序列时，容易出现内存瓶颈和生成质量下降的问题。

核心思路：BiTDiff的核心思路是利用BiMamba和Transformer的优势，结合扩散模型，实现高效的长序列建模和高质量的动作合成。BiMamba擅长处理长序列，具有内存效率优势，而Transformer擅长跨模态语义对齐。扩散模型则能够生成高质量的动作。通过结合这些技术，BiTDiff能够有效地解决现有方法的局限性。

技术框架：BiTDiff的整体框架是一个基于扩散模型的生成模型。它包含以下几个主要模块：1) BiMamba-Transformer混合编码器：用于提取音乐特征和动作特征，并进行跨模态语义对齐。2) 扩散模型：用于从噪声中逐步生成动作序列。3) 人体运动学分解模块：将动作分解为手部和身体部分，分别进行建模。4) 物理一致性损失：用于约束生成的动作符合物理规律。

关键创新：BiTDiff的关键创新点在于：1) 提出了BiMamba-Transformer混合架构，能够有效地处理长序列，并实现跨模态语义对齐。2) 引入了人体运动学分解模块，能够更好地建模精细的动作。3) 提出了辅助物理一致性损失，能够约束生成的动作符合物理规律。4) 构建了大规模的3D指挥动作数据集CM-Data。

关键设计：BiTDiff的关键设计包括：1) BiMamba的配置：采用了特定的BiMamba层数和隐藏层大小，以平衡计算效率和建模能力。2) Transformer的配置：采用了特定的Transformer层数和注意力头数，以实现有效的跨模态语义对齐。3) 扩散模型的配置：采用了特定的噪声调度策略和采样方法，以生成高质量的动作。4) 损失函数的设计：除了标准的扩散模型损失外，还引入了物理一致性损失，以及手部和身体特定的前向运动学损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，BiTDiff在CM-Data数据集上实现了最先进的3D指挥动作生成性能。在定量评估中，BiTDiff在多个指标上优于现有方法，包括动作逼真度、音乐同步性和物理一致性。在定性评估中，BiTDiff生成的动作更加自然流畅，能够更好地表达音乐的情感。此外，BiTDiff还支持免训练的关节级运动编辑，为用户提供了更大的创作自由。

🎯 应用场景

BiTDiff在音乐教育、虚拟表演、数字人动画和人机协同创作等领域具有广泛的应用前景。它可以用于生成逼真的指挥动作，帮助音乐学习者理解指挥技巧，为虚拟表演提供生动的角色动画，并促进人与AI的协同创作，例如，用户可以通过编辑音乐来生成相应的指挥动作，或者通过调整指挥动作来控制音乐的播放。

📄 摘要（原文）

3D conducting motion generation aims to synthesize fine-grained conductor motions from music, with broad potential in music education, virtual performance, digital human animation, and human-AI co-creation. However, this task remains underexplored due to two major challenges: (1) the lack of large-scale fine-grained 3D conducting datasets and (2) the absence of effective methods that can jointly support long-sequence generation with high quality and efficiency. To address the data limitation, we develop a quality-oriented 3D conducting motion collection pipeline and construct CM-Data, a fine-grained SMPL-X dataset with about 10 hours of conducting motion data. To the best of our knowledge, CM-Data is the first and largest public dataset for 3D conducting motion generation. To address the methodological limitation, we propose BiTDiff, a novel framework for 3D conducting motion generation, built upon a BiMamba-Transformer hybrid model architecture for efficient long-sequence modeling and a Diffusion-based generative strategy with human-kinematic decomposition for high-quality motion synthesis. Specifically, BiTDiff introduces auxiliary physical-consistency losses and a hand-/body-specific forward-kinematics design for better fine-grained motion modeling, while leveraging BiMamba for memory-efficient long-sequence temporal modeling and Transformer for cross-modal semantic alignment. In addition, BiTDiff supports training-free joint-level motion editing, enabling downstream human-AI interaction design. Extensive quantitative and qualitative experiments demonstrate that BiTDiff achieves state-of-the-art (SOTA) performance for 3D conducting motion generation on the CM-Data dataset. Code will be available upon acceptance.

BiTDiff: Fine-Grained 3D Conducting Motion Generation via BiMamba-Transformer Diffusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理