Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

作者: Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao

分类: cs.CV, cs.IR

发布日期: 2026-03-10

💡 一句话要点

提出基于关节角度运动图像和Token-Patch交互的细粒度动作检索方法

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱六：视频提取与匹配 (Video Extraction) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 文本-动作检索 细粒度对齐 运动图像表示 Vision Transformer Token-Patch交互

📋 核心要点

现有文本-动作检索方法依赖全局嵌入，忽略了局部对应关系，导致检索精度下降且缺乏可解释性。
论文提出一种基于关节角度的运动图像表示，并结合Token-Patch后期交互机制，实现细粒度的文本-动作对齐。
实验结果表明，该方法在HumanML3D和KIT-ML数据集上超越了现有技术，并提供了可解释的检索结果。

📝 摘要（中文）

本文提出了一种细粒度的文本-动作检索方法，旨在学习自然语言描述和3D人体骨骼序列之间语义对齐的潜在空间，从而实现双向检索。现有方法通常采用双编码器框架，将动作和文本压缩成全局嵌入，忽略了细粒度的局部对应关系，降低了准确性。此外，这些全局嵌入方法的可解释性有限。为了克服这些限制，我们提出了一种可解释的、基于关节角度的运动表示，将关节级别的局部特征映射到结构化的伪图像，与预训练的Vision Transformer兼容。对于文本到动作的检索，我们采用MaxSim，一种token级别的后期交互机制，并通过Masked Language Modeling正则化来增强其鲁棒性和可解释性。在HumanML3D和KIT-ML上的大量实验表明，我们的方法优于最先进的文本-动作检索方法，同时提供了文本和动作之间可解释的细粒度对应关系。

🔬 方法详解

问题定义：文本-动作检索旨在建立文本描述和3D人体动作之间的关联。现有方法主要依赖于将文本和动作编码为全局嵌入向量，然后计算相似度进行检索。这种方法忽略了文本和动作之间的细粒度局部对应关系，例如，文本中的“跳跃”可能对应于动作序列中特定关节的运动模式。这种全局嵌入的方式也缺乏可解释性，难以理解检索结果的依据。

核心思路：论文的核心思路是将3D人体动作序列转换为基于关节角度的运动图像，从而将动作的局部信息以图像的形式进行编码。然后，利用预训练的Vision Transformer (ViT) 来提取运动图像的特征。对于文本，则采用token级别的交互机制，使得文本的每个token都能与运动图像的局部区域进行交互，从而建立细粒度的文本-动作对应关系。这种设计旨在保留动作的局部信息，并提高检索的可解释性。

技术框架：整体框架包括以下几个主要模块：1) 运动图像生成模块：将3D人体动作序列转换为基于关节角度的运动图像。2) 文本编码模块：使用预训练的语言模型（例如BERT）对文本进行编码。3) 图像特征提取模块：使用预训练的Vision Transformer (ViT) 提取运动图像的特征。4) Token-Patch交互模块：采用MaxSim机制，实现文本token和运动图像patch之间的交互。5) 检索模块：根据文本和动作的特征向量计算相似度，进行检索。

关键创新：该论文的关键创新在于：1) 提出了基于关节角度的运动图像表示方法，有效地保留了动作的局部信息。2) 采用了Token-Patch后期交互机制，实现了文本和动作之间的细粒度对齐。3) 利用Masked Language Modeling (MLM) 正则化，增强了文本编码器的鲁棒性。

关键设计：运动图像的生成方式是将每个关节的角度变化映射到图像的像素值。Token-Patch交互模块采用MaxSim机制，计算每个文本token和每个图像patch之间的相似度，并选择相似度最高的patch作为该token的表示。Masked Language Modeling (MLM) 正则化通过随机mask文本中的一些token，并要求模型预测被mask的token，从而提高文本编码器的鲁棒性。损失函数包括检索损失和MLM损失，共同优化模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在HumanML3D和KIT-ML数据集上均取得了显著的性能提升。在HumanML3D数据集上，R@1指标提升了超过5%，R@5指标提升了超过3%。与现有最先进的方法相比，该方法在检索精度和可解释性方面均具有优势。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实、游戏开发等领域。例如，用户可以通过自然语言描述来检索特定的3D人体动作，从而实现更自然、更智能的人机交互。此外，该方法还可以用于动作捕捉数据的自动标注和动作生成等任务，具有广泛的应用前景。

📄 摘要（原文）

Text-motion retrieval aims to learn a semantically aligned latent space between natural language descriptions and 3D human motion skeleton sequences, enabling bidirectional search across the two modalities. Most existing methods use a dual-encoder framework that compresses motion and text into global embeddings, discarding fine-grained local correspondences, and thus reducing accuracy. Additionally, these global-embedding methods offer limited interpretability of the retrieval results. To overcome these limitations, we propose an interpretable, joint-angle-based motion representation that maps joint-level local features into a structured pseudo-image, compatible with pre-trained Vision Transformers. For text-to-motion retrieval, we employ MaxSim, a token-wise late interaction mechanism, and enhance it with Masked Language Modeling regularization to foster robust, interpretable text-motion alignment. Extensive experiments on HumanML3D and KIT-ML show that our method outperforms state-of-the-art text-motion retrieval approaches while offering interpretable fine-grained correspondences between text and motion. The code is available in the supplementary material.

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理