Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction
作者: Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao
分类: cs.CV, cs.IR
发布日期: 2026-03-10
💡 一句话要点
提出基于关节角度运动图像和Token-Patch交互的细粒度动作检索方法
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 文本-动作检索 细粒度对齐 运动图像表示 Vision Transformer Token-Patch交互
📋 核心要点
- 现有文本-动作检索方法依赖全局嵌入,忽略了局部对应关系,导致检索精度下降且缺乏可解释性。
- 论文提出一种基于关节角度的运动图像表示,并结合Token-Patch后期交互机制,实现细粒度的文本-动作对齐。
- 实验结果表明,该方法在HumanML3D和KIT-ML数据集上超越了现有技术,并提供了可解释的检索结果。
📝 摘要(中文)
本文提出了一种细粒度的文本-动作检索方法,旨在学习自然语言描述和3D人体骨骼序列之间语义对齐的潜在空间,从而实现双向检索。现有方法通常采用双编码器框架,将动作和文本压缩成全局嵌入,忽略了细粒度的局部对应关系,降低了准确性。此外,这些全局嵌入方法的可解释性有限。为了克服这些限制,我们提出了一种可解释的、基于关节角度的运动表示,将关节级别的局部特征映射到结构化的伪图像,与预训练的Vision Transformer兼容。对于文本到动作的检索,我们采用MaxSim,一种token级别的后期交互机制,并通过Masked Language Modeling正则化来增强其鲁棒性和可解释性。在HumanML3D和KIT-ML上的大量实验表明,我们的方法优于最先进的文本-动作检索方法,同时提供了文本和动作之间可解释的细粒度对应关系。
🔬 方法详解
问题定义:文本-动作检索旨在建立文本描述和3D人体动作之间的关联。现有方法主要依赖于将文本和动作编码为全局嵌入向量,然后计算相似度进行检索。这种方法忽略了文本和动作之间的细粒度局部对应关系,例如,文本中的“跳跃”可能对应于动作序列中特定关节的运动模式。这种全局嵌入的方式也缺乏可解释性,难以理解检索结果的依据。
核心思路:论文的核心思路是将3D人体动作序列转换为基于关节角度的运动图像,从而将动作的局部信息以图像的形式进行编码。然后,利用预训练的Vision Transformer (ViT) 来提取运动图像的特征。对于文本,则采用token级别的交互机制,使得文本的每个token都能与运动图像的局部区域进行交互,从而建立细粒度的文本-动作对应关系。这种设计旨在保留动作的局部信息,并提高检索的可解释性。
技术框架:整体框架包括以下几个主要模块:1) 运动图像生成模块:将3D人体动作序列转换为基于关节角度的运动图像。2) 文本编码模块:使用预训练的语言模型(例如BERT)对文本进行编码。3) 图像特征提取模块:使用预训练的Vision Transformer (ViT) 提取运动图像的特征。4) Token-Patch交互模块:采用MaxSim机制,实现文本token和运动图像patch之间的交互。5) 检索模块:根据文本和动作的特征向量计算相似度,进行检索。
关键创新:该论文的关键创新在于:1) 提出了基于关节角度的运动图像表示方法,有效地保留了动作的局部信息。2) 采用了Token-Patch后期交互机制,实现了文本和动作之间的细粒度对齐。3) 利用Masked Language Modeling (MLM) 正则化,增强了文本编码器的鲁棒性。
关键设计:运动图像的生成方式是将每个关节的角度变化映射到图像的像素值。Token-Patch交互模块采用MaxSim机制,计算每个文本token和每个图像patch之间的相似度,并选择相似度最高的patch作为该token的表示。Masked Language Modeling (MLM) 正则化通过随机mask文本中的一些token,并要求模型预测被mask的token,从而提高文本编码器的鲁棒性。损失函数包括检索损失和MLM损失,共同优化模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在HumanML3D和KIT-ML数据集上均取得了显著的性能提升。在HumanML3D数据集上,R@1指标提升了超过5%,R@5指标提升了超过3%。与现有最先进的方法相比,该方法在检索精度和可解释性方面均具有优势。
🎯 应用场景
该研究成果可应用于人机交互、虚拟现实、游戏开发等领域。例如,用户可以通过自然语言描述来检索特定的3D人体动作,从而实现更自然、更智能的人机交互。此外,该方法还可以用于动作捕捉数据的自动标注和动作生成等任务,具有广泛的应用前景。
📄 摘要(原文)
Text-motion retrieval aims to learn a semantically aligned latent space between natural language descriptions and 3D human motion skeleton sequences, enabling bidirectional search across the two modalities. Most existing methods use a dual-encoder framework that compresses motion and text into global embeddings, discarding fine-grained local correspondences, and thus reducing accuracy. Additionally, these global-embedding methods offer limited interpretability of the retrieval results. To overcome these limitations, we propose an interpretable, joint-angle-based motion representation that maps joint-level local features into a structured pseudo-image, compatible with pre-trained Vision Transformers. For text-to-motion retrieval, we employ MaxSim, a token-wise late interaction mechanism, and enhance it with Masked Language Modeling regularization to foster robust, interpretable text-motion alignment. Extensive experiments on HumanML3D and KIT-ML show that our method outperforms state-of-the-art text-motion retrieval approaches while offering interpretable fine-grained correspondences between text and motion. The code is available in the supplementary material.