Bilingual Text-to-Motion Generation: A New Benchmark and Baselines

📄 arXiv: 2603.25178v1 📥 PDF

作者: Wanjiang Weng, Xiaofeng Tan, Xiangbo Shu, Guo-Sen Xie, Pan Zhou, Hongsong Wang

分类: cs.CV, cs.CL

发布日期: 2026-03-26

备注: 11 pages, 7 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出BiHumanML3D基准以解决双语文本到动作生成问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 双语生成 文本到动作 跨语言对齐 动作生成 数据集构建 机器学习 深度学习

📋 核心要点

  1. 现有的文本到动作生成方法缺乏双语数据集,且语言模型的跨语言语义理解能力不足,限制了其应用。
  2. 本文提出了BiHumanML3D基准和双语运动扩散(BiMD)方法,通过跨语言对齐(CLA)实现双语输入的高质量动作生成。
  3. 实验结果显示,BiMD在FID和R@3指标上分别达到0.045和82.8%,显著优于现有的单语模型和翻译基线,验证了方法的有效性。

📝 摘要(中文)

文本到动作生成在跨语言应用中具有重要潜力,但由于缺乏双语数据集和现有语言模型的跨语言语义理解能力不足,面临诸多挑战。为了解决这些问题,本文引入了BiHumanML3D,这是第一个通过大型语言模型辅助注释和严格人工校正构建的双语文本到动作基准。此外,本文提出了一种简单而有效的基线方法——双语运动扩散(BiMD),其特点是跨语言对齐(CLA),能够在双语输入下生成高质量的动作,包括零-shot代码切换场景。大量实验表明,BiMD在BiHumanML3D上显著优于单语扩散模型和翻译基线,验证了数据集的必要性和对齐策略的有效性。

🔬 方法详解

问题定义:本文旨在解决双语文本到动作生成中的数据稀缺和现有模型的跨语言理解能力不足的问题。现有方法在处理双语输入时表现不佳,导致生成的动作质量低下。

核心思路:论文提出的BiMD方法通过引入跨语言对齐(CLA)机制,显著提升了双语输入的语义对齐能力,从而提高了生成动作的质量。CLA的设计使得不同语言的语义表示能够有效对齐,形成一个稳健的条件空间。

技术框架:BiMD的整体架构包括数据预处理、CLA模块和动作生成模块。首先,通过LLM辅助注释构建双语数据集,然后利用CLA对输入的双语文本进行对齐,最后生成相应的动作序列。

关键创新:最重要的创新点在于引入了跨语言对齐(CLA)机制,使得双语输入的语义表示能够有效对齐,这在现有的单语模型中是无法实现的。

关键设计:在模型设计中,采用了特定的损失函数以优化跨语言对齐效果,并在网络结构中引入了多层次的语义表示,以增强模型的生成能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,BiMD在FID指标上达到0.045,相较于对比基线0.169有显著提升;在R@3指标上,BiMD的表现为82.8%,高于80.8%的翻译基线,充分证明了其在双语文本到动作生成中的有效性。

🎯 应用场景

该研究的潜在应用领域包括虚拟现实、游戏开发和人机交互等,能够为跨语言用户提供更自然的交互体验。未来,该技术有望推动多语言环境下的智能机器人和自动化系统的发展,提升其在全球化场景中的适应能力。

📄 摘要(原文)

Text-to-motion generation holds significant potential for cross-linguistic applications, yet it is hindered by the lack of bilingual datasets and the poor cross-lingual semantic understanding of existing language models. To address these gaps, we introduce BiHumanML3D, the first bilingual text-to-motion benchmark, constructed via LLM-assisted annotation and rigorous manual correction. Furthermore, we propose a simple yet effective baseline, Bilingual Motion Diffusion (BiMD), featuring Cross-Lingual Alignment (CLA). CLA explicitly aligns semantic representations across languages, creating a robust conditional space that enables high-quality motion generation from bilingual inputs, including zero-shot code-switching scenarios. Extensive experiments demonstrate that BiMD with CLA achieves an FID of 0.045 vs. 0.169 and R@3 of 82.8\% vs. 80.8\%, significantly outperforms monolingual diffusion models and translation baselines on BiHumanML3D, underscoring the critical necessity and reliability of our dataset and the effectiveness of our alignment strategy for cross-lingual motion synthesis. The dataset and code are released at \href{https://wengwanjiang.github.io/BilingualT2M-page}{https://wengwanjiang.github.io/BilingualT2M-page}