GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models

📄 arXiv: 2601.07632v1 📥 PDF

作者: Zhankai Ye, Bofan Li, Yukai Jin, Shuoqiu Li, Wei Wang, Yanfu Zhang, Shangqian Gao, Xin Liu

分类: cs.CV, cs.AI

发布日期: 2026-01-12


💡 一句话要点

GeoMotionGPT:通过几何对齐的运动理解增强大型语言模型

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 运动理解 大型语言模型 几何对齐 运动量化 正交正则化

📋 核心要点

  1. 现有方法在运动理解中,将运动量化与语义嵌入学习解耦,导致运动空间的几何结构与LLM的嵌入空间不对齐,限制了LLM的推理能力。
  2. GeoMotionGPT框架通过在运动码本和LLM嵌入空间上强制正交性,确保它们的几何关系自然对应,从而实现更有效的运动理解。
  3. 实验结果表明,GeoMotionGPT在HumanML3D数据集上比现有最佳方法提升了20%的性能,验证了几何对齐对于运动理解的有效性。

📝 摘要(中文)

离散运动标记化使得大型语言模型(LLMs)能够作为运动理解和运动-语言推理的通用骨干网络。然而,现有的流程通常将运动量化与语义嵌入学习解耦,仅通过token IDs连接它们。这种方法未能有效地将运动空间的内在几何结构与嵌入空间对齐,从而阻碍了LLM进行细致运动推理的能力。我们认为,当两种模态共享统一的几何基础时,对齐最为有效。因此,我们提出了一种新颖的框架,该框架显式地在运动码本和LLM嵌入空间上强制正交性,确保它们的关系结构自然地相互反映,而不是强迫LLM从头开始重建运动token之间复杂的几何结构。具体来说,我们采用带有Gumbel-Softmax的decoder-only量化器进行可微训练和平衡的码本使用。为了桥接模态,我们使用稀疏投影将运动代码映射到LLM嵌入空间,同时保持正交性。最后,一个两阶段的正交正则化策略在tokenizer训练和LLM微调期间强制软约束,以保持几何对齐,而不会阻碍语义适应。在HumanML3D上的大量实验表明,我们的框架比当前最先进的方法提高了20%的性能,验证了统一的几何基础有效地增强了LLM进行细致运动推理的能力。

🔬 方法详解

问题定义:现有基于LLM的运动理解方法,通常先将运动数据离散化为token,然后训练LLM学习这些token的语义嵌入。然而,这种方法忽略了运动数据本身固有的几何结构,以及这种结构与LLM嵌入空间对齐的重要性。这导致LLM难以捕捉运动的细微差别,限制了其运动推理能力。现有方法的一个主要痛点是运动量化和语义嵌入学习的解耦。

核心思路:GeoMotionGPT的核心思路是显式地对齐运动空间的几何结构和LLM的嵌入空间。具体来说,它通过在运动码本和LLM嵌入空间上强制正交性来实现这种对齐。正交性确保了运动token之间的关系在LLM的嵌入空间中得到忠实地保留,从而使LLM能够更好地理解和推理运动。

技术框架:GeoMotionGPT框架包含以下几个主要模块:1) Decoder-only量化器:使用Gumbel-Softmax进行可微训练,并平衡码本的使用。2) 稀疏投影:将运动代码映射到LLM嵌入空间,同时保持正交性。3) 两阶段正交正则化策略:在tokenizer训练和LLM微调期间强制软约束,以保持几何对齐。整体流程是先训练一个几何感知的运动tokenizer,然后将运动token嵌入到LLM中,最后微调LLM以进行运动理解。

关键创新:GeoMotionGPT最重要的技术创新点在于它显式地对齐了运动空间的几何结构和LLM的嵌入空间。与现有方法不同,GeoMotionGPT不是简单地将运动token输入到LLM中,而是通过强制正交性来确保运动token之间的关系在LLM的嵌入空间中得到忠实地保留。这种几何对齐是GeoMotionGPT能够取得显著性能提升的关键。

关键设计:GeoMotionGPT的关键设计包括:1) 使用Gumbel-Softmax进行可微量化,以便在训练过程中优化运动码本。2) 使用稀疏投影来减少参数量,并保持正交性。3) 使用两阶段正交正则化策略,在tokenizer训练和LLM微调期间逐步加强正交性约束。损失函数包括量化损失、重构损失和正交正则化损失。

📊 实验亮点

GeoMotionGPT在HumanML3D数据集上取得了显著的性能提升,比当前最先进的方法提高了20%。这一结果表明,几何对齐对于运动理解至关重要,并且GeoMotionGPT提出的框架能够有效地实现这种对齐。实验结果还表明,GeoMotionGPT在各种运动理解任务上都表现出色,包括运动分类、运动生成和运动预测。

🎯 应用场景

GeoMotionGPT在人机交互、虚拟现实、游戏开发、动画制作等领域具有广泛的应用前景。它可以用于生成更自然、更逼真的人体运动,提高虚拟角色的智能化水平,并为用户提供更沉浸式的体验。此外,GeoMotionGPT还可以用于运动分析和康复训练,帮助医生和治疗师更好地了解患者的运动模式,并制定个性化的治疗方案。

📄 摘要(原文)

Discrete motion tokenization has recently enabled Large Language Models (LLMs) to serve as versatile backbones for motion understanding and motion-language reasoning. However, existing pipelines typically decouple motion quantization from semantic embedding learning, linking them solely via token IDs. This approach fails to effectively align the intrinsic geometry of the motion space with the embedding space, thereby hindering the LLM's capacity for nuanced motion reasoning. We argue that alignment is most effective when both modalities share a unified geometric basis. Therefore, instead of forcing the LLM to reconstruct the complex geometry among motion tokens from scratch, we present a novel framework that explicitly enforces orthogonality on both the motion codebook and the LLM embedding space, ensuring that their relational structures naturally mirror each other. Specifically, we employ a decoder-only quantizer with Gumbel-Softmax for differentiable training and balanced codebook usage. To bridge the modalities, we use a sparse projection that maps motion codes into the LLM embedding space while preserving orthogonality. Finally, a two-stage orthonormal regularization schedule enforces soft constraints during tokenizer training and LLM fine-tuning to maintain geometric alignment without hindering semantic adaptation. Extensive experiments on HumanML3D demonstrate that our framework achieves a 20% performance improvement over current state-of-the-art methods, validating that a unified geometric basis effectively empowers the LLM for nuanced motion reasoning.