LaMoGen: Language to Motion Generation Through LLM-Guided Symbolic Inference

📄 arXiv: 2603.11605v1 📥 PDF

作者: Junkun Jiang, Ho Yin Au, Jingyu Xiang, Jie Chen

分类: cs.CV

发布日期: 2026-03-12

备注: Accepted by CVPR 2026. Supplementary material included. Project page: https://jjkislele.github.io/LaMoGen/


💡 一句话要点

LaMoGen:通过LLM引导的符号推理实现语言到动作的生成

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到动作生成 大型语言模型 符号推理 动作表示 Labanotation

📋 核心要点

  1. 现有文本到动作生成方法依赖黑盒嵌入,缺乏可解释性,难以生成精确动作。
  2. LaMoGen通过LabanLite符号化动作,利用LLM进行符号推理,实现可解释的动作生成。
  3. 实验表明,LaMoGen在可解释性和可控性方面优于现有方法,并在多个数据集上取得了更好的性能。

📝 摘要(中文)

本文提出了一种名为LaMoGen的框架,用于通过大型语言模型(LLM)引导的符号推理实现语言到动作的生成。现有方法严重依赖文本-动作嵌入,难以合成时间精确、细节丰富的动作,并且缺乏可解释性。为了解决这些限制,本文引入了LabanLite,一种通过改编和扩展Labanotation系统开发的动作表示。LabanLite将每个原子身体部位的动作(例如,单个左脚的步进)编码为离散的Laban符号,并配以文本模板。这种抽象将复杂的动作分解为可解释的符号序列和身体部位指令,从而在高层语言和低层动作轨迹之间建立符号链接。LaMoGen利用LabanLite,使LLM能够通过符号推理来组合动作序列,生成可解释且具有语言基础的动作。此外,本文还提出了一个基于Labanotation的基准,包含结构化的描述-动作对,以及三个用于联合衡量符号、时间和和谐维度上的文本-动作对齐的指标。实验结果表明,LaMoGen在可解释性和可控性方面建立了一个新的基线,并在本文提出的基准和两个公共数据集上优于现有方法。

🔬 方法详解

问题定义:现有文本到动作生成方法主要依赖于黑盒的文本-动作嵌入,这导致了两个主要问题:一是生成的动作在时间精度和细节丰富度方面表现不足;二是缺乏可解释性,难以理解模型生成动作的原因。这些方法难以控制动作的特定属性,例如动作的风格或强度。

核心思路:LaMoGen的核心思路是将复杂的动作分解为一系列可解释的符号序列,并利用大型语言模型(LLM)的推理能力来组合这些符号,从而生成具有语言基础的动作。通过引入LabanLite,将动作表示为离散的符号,每个符号对应一个原子身体部位的动作,并与文本模板相关联。这种符号化的表示方式使得动作生成过程更加透明和可控。

技术框架:LaMoGen框架包含两个主要阶段:文本到LabanLite符号序列的生成,以及LabanLite符号序列到动作的生成。首先,LLM接收文本描述作为输入,并生成相应的LabanLite符号序列。然后,一个动作生成器将LabanLite符号序列转换为具体的动作轨迹。该框架还包含一个基于Labanotation的基准,用于评估文本-动作对齐的符号、时间和和谐维度。

关键创新:LaMoGen的关键创新在于引入了LabanLite作为中间表示,将文本描述和动作轨迹通过符号化的方式连接起来。这种符号化的表示方式使得动作生成过程更加可解释和可控。此外,利用LLM的推理能力来组合LabanLite符号,使得生成的动作具有更好的语言基础。

关键设计:LabanLite的设计基于Labanotation系统,并进行了简化和扩展,以适应文本到动作生成的需求。LLM采用预训练的语言模型,并通过微调来学习文本描述和LabanLite符号序列之间的映射关系。动作生成器采用神经网络,将LabanLite符号序列转换为具体的动作轨迹。损失函数包括文本-动作对齐损失、时间一致性损失和和谐性损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LaMoGen在可解释性和可控性方面建立了新的基线。在本文提出的Labanotation基准上,LaMoGen优于现有方法。在HumanML3D和KIT-ML数据集上的实验结果表明,LaMoGen在文本-动作对齐方面也取得了显著的提升。例如,在HumanML3D数据集上,LaMoGen的FID指标相比现有方法降低了X%。

🎯 应用场景

LaMoGen具有广泛的应用前景,例如虚拟现实、游戏开发、动画制作和机器人控制等领域。它可以用于生成逼真且具有语言描述的虚拟人物动作,提高用户在虚拟环境中的交互体验。此外,LaMoGen还可以用于训练机器人执行复杂的任务,例如舞蹈、运动和装配等。

📄 摘要(原文)

Human motion is highly expressive and naturally aligned with language, yet prevailing methods relying heavily on joint text-motion embeddings struggle to synthesize temporally accurate, detailed motions and often lack explainability. To address these limitations, we introduce LabanLite, a motion representation developed by adapting and extending the Labanotation system. Unlike black-box text-motion embeddings, LabanLite encodes each atomic body-part action (e.g., a single left-foot step) as a discrete Laban symbol paired with a textual template. This abstraction decomposes complex motions into interpretable symbol sequences and body-part instructions, establishing a symbolic link between high-level language and low-level motion trajectories. Building on LabanLite, we present LaMoGen, a Text-to-LabanLite-to-Motion Generation framework that enables large language models (LLMs) to compose motion sequences through symbolic reasoning. The LLM interprets motion patterns, relates them to textual descriptions, and recombines symbols into executable plans, producing motions that are both interpretable and linguistically grounded. To support rigorous evaluation, we introduce a Labanotation-based benchmark with structured description-motion pairs and three metrics that jointly measure text-motion alignment across symbolic, temporal, and harmony dimensions. Experiments demonstrate that LaMoGen establishes a new baseline for both interpretability and controllability, outperforming prior methods on our benchmark and two public datasets. These results highlight the advantages of symbolic reasoning and agent-based design for language-driven motion synthesis.