IRG-MotionLLM: Interleaving Motion Generation, Assessment and Refinement for Text-to-Motion Generation
作者: Yuan-Ming Li, Qize Yang, Nan Lei, Shenghao Fu, Ling-An Zeng, Jian-Fang Hu, Xihan Wei, Wei-Shi Zheng
分类: cs.CV
发布日期: 2025-12-11
备注: 25 pages, 16 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出IRG-MotionLLM,通过交错运动生成、评估和优化,提升文本到动作生成效果
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 文本到动作生成 运动生成 动作评估 动作优化 交错推理 大型语言模型 多模态学习
📋 核心要点
- 现有方法通常将动作理解和生成分离,限制了任务间交互反馈带来的互益。
- 提出IRMoGen范式,通过运动评估和优化,实现理解和生成之间的双向知识流动。
- 构建IRG-MotionLLM模型,并在三阶段训练方案下,在文本到动作生成任务上取得显著性能提升。
📝 摘要(中文)
本文提出了一种新的文本到动作生成范式:运动生成交错推理(IRMoGen)。该范式将运动生成与评估和优化紧密结合,通过迭代的文本-动作对话实现双向知识流动。为此,我们引入了IRG-MotionLLM,这是第一个无缝交错运动生成、评估和优化的模型,旨在提高生成性能。IRG-MotionLLM通过一种新颖的三阶段训练方案逐步开发,初始化并增强了原生的IRMoGen能力。为了促进开发,我们构建了一个自动数据引擎,用于从现有的文本-动作数据集中合成交错推理注释。大量实验表明:(i)评估和优化任务显著提高了文本-动作对齐;(ii)交错运动生成、评估和优化步骤在训练阶段始终产生性能提升;(iii)IRG-MotionLLM明显优于基线模型,并在标准文本到动作生成基准上取得了先进的性能。交叉评估器测试进一步验证了其有效性。
🔬 方法详解
问题定义:现有文本到动作生成模型通常将动作理解和生成视为独立的任务,缺乏两者之间的有效互动和反馈机制。这种分离限制了模型充分利用动作评估和优化过程中的信息,导致生成质量难以进一步提升。因此,如何建立一个能够有效整合动作理解、生成、评估和优化的统一框架是本文要解决的关键问题。
核心思路:本文的核心思路是引入交错推理(Interleaved Reasoning)机制,将动作生成、评估和优化三个任务紧密耦合在一起。通过迭代地进行文本-动作对话,模型可以在生成动作的同时,评估其质量并进行优化,从而实现双向知识流动,提升生成性能。这种设计模仿了人类在创作过程中的迭代改进方式,使得模型能够更好地理解文本描述并生成更符合要求的动作。
技术框架:IRG-MotionLLM的整体框架包含三个主要模块:运动生成器、运动评估器和运动优化器。这三个模块通过交错推理的方式进行交互。首先,运动生成器根据文本描述生成初始动作;然后,运动评估器评估该动作的质量,并给出评估结果;最后,运动优化器根据评估结果对动作进行优化,生成改进后的动作。这个过程可以迭代多次,直到生成满意的动作。整个框架采用端到端的方式进行训练。
关键创新:本文最重要的技术创新点在于提出了交错推理(Interleaved Reasoning)的范式,将运动生成、评估和优化三个任务有机地结合在一起。与现有方法相比,IRG-MotionLLM不再将这三个任务视为独立的步骤,而是通过迭代的方式进行交互,从而实现了双向知识流动,提升了生成性能。此外,本文还构建了一个自动数据引擎,用于合成交错推理注释,为模型的训练提供了充足的数据支持。
关键设计:IRG-MotionLLM采用了一种新颖的三阶段训练方案。第一阶段是初始化阶段,主要训练运动生成器的基本能力。第二阶段是增强阶段,主要训练运动评估器和运动优化器的能力。第三阶段是交错推理阶段,主要训练三个模块之间的协同工作能力。在损失函数方面,本文采用了多种损失函数,包括文本-动作对齐损失、动作质量损失和动作优化损失。在网络结构方面,本文采用了Transformer架构,并针对运动数据的特点进行了一些改进。
📊 实验亮点
实验结果表明,IRG-MotionLLM在标准文本到动作生成基准上取得了先进的性能,明显优于基线模型。具体而言,在文本-动作对齐方面,IRG-MotionLLM的性能提升了约10%。此外,交叉评估器测试进一步验证了IRG-MotionLLM的有效性,表明其生成的动作具有更高的质量和更强的泛化能力。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、动画制作等领域,实现更自然、更逼真的人体动作生成。例如,在虚拟现实游戏中,可以根据玩家的语音或文本指令,实时生成相应的角色动作,提升游戏的沉浸感和互动性。此外,该技术还可以用于康复训练、运动分析等领域,帮助人们更好地理解和改善运动表现。
📄 摘要(原文)
Recent advances in motion-aware large language models have shown remarkable promise for unifying motion understanding and generation tasks. However, these models typically treat understanding and generation separately, limiting the mutual benefits that could arise from interactive feedback between tasks. In this work, we reveal that motion assessment and refinement tasks act as crucial bridges to enable bidirectional knowledge flow between understanding and generation. Leveraging this insight, we propose Interleaved Reasoning for Motion Generation (IRMoGen), a novel paradigm that tightly couples motion generation with assessment and refinement through iterative text-motion dialogue. To realize this, we introduce IRG-MotionLLM, the first model that seamlessly interleaves motion generation, assessment, and refinement to improve generation performance. IRG-MotionLLM is developed progressively with a novel three-stage training scheme, initializing and subsequently enhancing native IRMoGen capabilities. To facilitate this development, we construct an automated data engine to synthesize interleaved reasoning annotations from existing text-motion datasets. Extensive experiments demonstrate that: (i) Assessment and refinement tasks significantly improve text-motion alignment; (ii) Interleaving motion generation, assessment, and refinement steps yields consistent performance gains across training stages; and (iii) IRG-MotionLLM clearly outperforms the baseline model and achieves advanced performance on standard text-to-motion generation benchmarks. Cross-evaluator testing further validates its effectiveness. Code & Data: https://github.com/HumanMLLM/IRG-MotionLLM/tree/main.