SegMo: Segment-aligned Text to 3D Human Motion Generation

📄 arXiv: 2512.21237v1 📥 PDF

作者: Bowen Dang, Lin Wu, Xiaohang Yang, Zheng Yuan, Zhixiang Chen

分类: cs.CV

发布日期: 2025-12-24

备注: The IEEE/CVF Winter Conference on Applications of Computer Vision 2026


💡 一句话要点

提出SegMo框架,通过对齐文本和运动片段实现更精细的文本驱动3D人体动作生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 文本驱动动作生成 3D人体动作 分段对齐 对比学习 多模态学习

📋 核心要点

  1. 现有文本驱动人体动作生成方法忽略了文本和动作序列内部的语义结构,导致对齐不够精细。
  2. SegMo框架将文本描述和运动序列分解为语义连贯的片段,并通过对比学习实现细粒度的文本-动作对齐。
  3. 实验结果表明,SegMo在HumanML3D数据集上取得了显著提升,TOP 1分数达到0.553,优于现有方法。

📝 摘要(中文)

本文提出了一种新的分段对齐的文本条件3D人体动作生成框架SegMo,旨在实现细粒度的文本-动作对齐。现有方法通常在序列级别对齐文本描述和人体动作,忽略了模态内部的语义结构。SegMo框架包含三个模块:(1)文本片段提取,将复杂的文本描述分解为按时间顺序排列的短语,每个短语代表一个简单的原子动作;(2)运动片段提取,将完整的运动序列划分为相应的运动片段;(3)细粒度文本-动作对齐,通过对比学习对齐文本和运动片段。大量实验表明,SegMo在两个广泛使用的数据集上改进了强大的基线,在HumanML3D测试集上实现了0.553的TOP 1分数。

🔬 方法详解

问题定义:现有文本驱动3D人体动作生成方法主要在序列级别进行文本和动作的对齐,忽略了文本描述和运动序列内部的语义结构。这种粗粒度的对齐方式无法捕捉到文本和动作之间的细微对应关系,限制了生成动作的质量和多样性。现有方法的痛点在于缺乏对文本和动作内部结构的建模,导致对齐不够准确。

核心思路:SegMo的核心思路是将文本描述和运动序列分解为更小的、语义连贯的片段,然后通过对比学习在这些片段级别上进行对齐。这种细粒度的对齐方式能够更好地捕捉文本和动作之间的对应关系,从而生成更准确、更自然的动作。之所以这样设计,是因为文本描述和运动序列都可以自然地分解为具有明确语义的片段,这些片段可以作为原子对齐单元。

技术框架:SegMo框架包含三个主要模块:(1)文本片段提取模块,负责将复杂的文本描述分解为按时间顺序排列的短语,每个短语代表一个简单的原子动作。(2)运动片段提取模块,负责将完整的运动序列划分为相应的运动片段。(3)细粒度文本-动作对齐模块,负责通过对比学习对齐文本和运动片段。整个流程首先对文本和动作进行片段提取,然后利用对比学习在片段级别上建立文本和动作之间的对应关系。

关键创新:SegMo最重要的技术创新点在于提出了分段对齐的文本-动作生成框架,将文本和动作分解为片段,并在片段级别上进行对齐。与现有方法在序列级别进行对齐相比,SegMo能够实现更精细的文本-动作对应关系,从而生成更准确、更自然的动作。这种分段对齐的思想是SegMo与现有方法的本质区别。

关键设计:在文本片段提取模块中,可以使用现有的自然语言处理技术,如依存句法分析或语义角色标注,来识别文本中的关键短语。在运动片段提取模块中,可以使用基于运动学或动力学的分割算法,将运动序列划分为具有明确语义的片段。在对比学习中,可以使用InfoNCE损失函数来最大化正样本对(即对应的文本和运动片段)之间的相似度,同时最小化负样本对之间的相似度。具体的网络结构和参数设置需要根据具体的数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SegMo在HumanML3D数据集上取得了显著的性能提升,TOP 1分数达到0.553,超过了现有的强基线方法。这表明SegMo的分段对齐策略能够有效地捕捉文本和动作之间的细粒度对应关系,从而生成更准确、更自然的动作。此外,SegMo学习到的文本和运动片段的共享嵌入空间还可以应用于运动检索和文本检索等任务。

🎯 应用场景

SegMo框架具有广泛的应用前景,可以应用于视频游戏、虚拟现实和增强现实等领域。例如,在视频游戏中,可以使用SegMo根据玩家输入的文本描述生成角色的动作,从而增强游戏的互动性和沉浸感。在虚拟现实和增强现实中,可以使用SegMo生成虚拟人物的动作,从而创建更逼真的虚拟环境。此外,SegMo还可以应用于动画制作、机器人控制等领域。

📄 摘要(原文)

Generating 3D human motions from textual descriptions is an important research problem with broad applications in video games, virtual reality, and augmented reality. Recent methods align the textual description with human motion at the sequence level, neglecting the internal semantic structure of modalities. However, both motion descriptions and motion sequences can be naturally decomposed into smaller and semantically coherent segments, which can serve as atomic alignment units to achieve finer-grained correspondence. Motivated by this, we propose SegMo, a novel Segment-aligned text-conditioned human Motion generation framework to achieve fine-grained text-motion alignment. Our framework consists of three modules: (1) Text Segment Extraction, which decomposes complex textual descriptions into temporally ordered phrases, each representing a simple atomic action; (2) Motion Segment Extraction, which partitions complete motion sequences into corresponding motion segments; and (3) Fine-grained Text-Motion Alignment, which aligns text and motion segments with contrastive learning. Extensive experiments demonstrate that SegMo improves the strong baseline on two widely used datasets, achieving an improved TOP 1 score of 0.553 on the HumanML3D test set. Moreover, thanks to the learned shared embedding space for text and motion segments, SegMo can also be applied to retrieval-style tasks such as motion grounding and motion-to-text retrieval.