Multi-Modal Motion Retrieval by Learning a Fine-Grained Joint Embedding Space

📄 arXiv: 2507.23188v1 📥 PDF

作者: Shiyao Yu, Zi-An Wang, Kangning Yin, Zheng Tian, Mingyuan Zhang, Weixin Si, Shihao Zou

分类: cs.CV

发布日期: 2025-07-31

备注: Accepted by IEEE TMM 2025


💡 一句话要点

提出一种多模态运动检索框架,通过学习细粒度联合嵌入空间提升检索性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 多模态运动检索 联合嵌入空间 对比学习 序列建模 音频模态

📋 核心要点

  1. 现有运动检索方法缺乏直观交互,忽略了模态的序列表示,限制了检索性能。
  2. 本文提出一种多模态运动检索框架,通过序列级对比学习构建细粒度联合嵌入空间。
  3. 实验结果表明,该框架在多个检索任务上显著优于现有方法,验证了多模态融合的有效性。

📝 摘要(中文)

本文提出了一种多模态运动检索框架,旨在解决现有方法交互方式不够直观、忽略模态序列表示的问题。该框架将文本、音频、视频和运动四种模态对齐到一个细粒度的联合嵌入空间中,首次将音频引入运动检索,增强用户沉浸感和便利性。通过序列级对比学习,框架能够捕捉跨模态的关键细节,实现更好的对齐。为了评估该框架,作者通过合成音频增强了现有的文本-运动数据集,构建了两个多模态运动检索数据集。实验结果表明,该框架在多个子任务上优于现有方法,例如在HumanML3D数据集上,文本到运动检索的R@10提升了10.16%,视频到运动检索的R@1提升了25.43%。此外,四模态框架显著优于三模态框架,突出了多模态运动检索在推进运动获取方面的潜力。

🔬 方法详解

问题定义:现有运动检索方法主要依赖文本或视频模态,缺乏直观的用户交互方式,并且忽略了模态数据的序列特性,导致检索精度受限。此外,现有方法很少考虑音频信息,无法提供更丰富的用户体验。

核心思路:本文的核心思路是将文本、音频、视频和运动四种模态的信息融合到一个细粒度的联合嵌入空间中。通过序列级的对比学习,模型能够学习到不同模态之间的细粒度对应关系,从而提升运动检索的准确性和相关性。引入音频模态旨在提升用户体验,提供更沉浸式的交互。

技术框架:该框架包含四个模态的编码器(文本编码器、音频编码器、视频编码器和运动编码器),用于提取各自模态的特征表示。然后,通过序列级对比学习,将这些特征表示映射到一个共享的嵌入空间中。在检索阶段,给定一个查询模态(例如文本),计算其嵌入向量与运动数据库中所有运动片段的嵌入向量之间的相似度,并返回相似度最高的运动片段。

关键创新:该论文的关键创新在于:1) 首次将音频模态引入到运动检索任务中,提升了用户体验;2) 提出了序列级对比学习方法,能够更好地捕捉不同模态之间的细粒度对应关系;3) 构建了包含音频信息的多模态运动检索数据集,为后续研究提供了基准。

关键设计:序列级对比学习损失函数旨在拉近正样本对(即描述相同运动的文本、音频、视频和运动片段)在嵌入空间中的距离,同时推远负样本对。具体的网络结构和参数设置(例如编码器的类型、嵌入空间的维度等)在论文中有详细描述。数据集的构建过程中,使用了数据增强技术来增加音频数据的多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在HumanML3D数据集上,文本到运动检索的R@10指标提升了10.16%,视频到运动检索的R@1指标提升了25.43%。此外,四模态框架在所有检索任务上均优于三模态框架,验证了音频模态的有效性以及多模态融合的优势。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、动画制作等领域。例如,用户可以通过语音指令或上传一段视频,快速检索到所需的运动片段,从而提高内容创作的效率和质量。未来,该技术有望应用于智能康复、运动教学等领域,提供个性化的运动指导。

📄 摘要(原文)

Motion retrieval is crucial for motion acquisition, offering superior precision, realism, controllability, and editability compared to motion generation. Existing approaches leverage contrastive learning to construct a unified embedding space for motion retrieval from text or visual modality. However, these methods lack a more intuitive and user-friendly interaction mode and often overlook the sequential representation of most modalities for improved retrieval performance. To address these limitations, we propose a framework that aligns four modalities -- text, audio, video, and motion -- within a fine-grained joint embedding space, incorporating audio for the first time in motion retrieval to enhance user immersion and convenience. This fine-grained space is achieved through a sequence-level contrastive learning approach, which captures critical details across modalities for better alignment. To evaluate our framework, we augment existing text-motion datasets with synthetic but diverse audio recordings, creating two multi-modal motion retrieval datasets. Experimental results demonstrate superior performance over state-of-the-art methods across multiple sub-tasks, including an 10.16% improvement in R@10 for text-to-motion retrieval and a 25.43% improvement in R@1 for video-to-motion retrieval on the HumanML3D dataset. Furthermore, our results show that our 4-modal framework significantly outperforms its 3-modal counterpart, underscoring the potential of multi-modal motion retrieval for advancing motion acquisition.