IRG-MotionLLM: Interleaving Motion Generation, Assessment and Refinement for Text-to-Motion Generation
作者: Yuan-Ming Li, Qize Yang, Nan Lei, Shenghao Fu, Ling-An Zeng, Jian-Fang Hu, Xihan Wei, Wei-Shi Zheng
分类: cs.CV
发布日期: 2025-12-11
备注: 25 pages, 16 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出IRG-MotionLLM,通过交错运动生成、评估和优化,提升文本到动作生成效果。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到动作生成 运动生成 运动评估 运动优化 交错推理 大型语言模型 人机交互
📋 核心要点
- 现有方法通常将动作理解和生成分离,限制了任务间交互反馈带来的互益。
- IRMoGen范式通过运动评估和优化,在文本到动作生成中实现双向知识流动。
- IRG-MotionLLM在文本到动作生成基准上超越基线模型,性能显著提升。
📝 摘要(中文)
本文提出了一种新的文本到动作生成范式:运动生成交错推理(IRMoGen)。该范式紧密耦合了运动生成、评估和优化,通过迭代的文本-动作对话来实现。为此,本文提出了IRG-MotionLLM,这是第一个无缝交错运动生成、评估和优化的模型,旨在提高生成性能。IRG-MotionLLM通过一种新颖的三阶段训练方案逐步开发,初始化并随后增强了原生的IRMoGen能力。为了促进这一开发,本文构建了一个自动数据引擎,用于从现有的文本-动作数据集中合成交错推理注释。大量实验表明:(i)评估和优化任务显著提高了文本-动作对齐;(ii)交错运动生成、评估和优化步骤在整个训练阶段都产生了持续的性能提升;(iii)IRG-MotionLLM明显优于基线模型,并在标准文本到动作生成基准上取得了先进的性能。交叉评估器测试进一步验证了其有效性。
🔬 方法详解
问题定义:现有文本到动作生成模型通常将动作理解和生成视为独立的任务,缺乏两者之间的有效互动和反馈机制。这种分离限制了模型利用动作评估和优化信息来指导生成过程,导致生成动作与文本描述的对齐度不高,动作质量也难以保证。
核心思路:本文的核心思路是引入运动评估和优化作为桥梁,将动作生成与理解紧密耦合。通过迭代地进行动作生成、评估和优化,模型可以利用评估结果来指导后续的生成过程,从而逐步提高生成动作的质量和与文本描述的对齐度。这种交错推理的方式模拟了人类在创作过程中的思考和改进过程。
技术框架:IRG-MotionLLM的整体框架包含三个主要模块:运动生成器、运动评估器和运动优化器。这三个模块通过迭代的文本-动作对话进行交互。首先,运动生成器根据文本描述生成初始动作。然后,运动评估器评估生成动作的质量和与文本描述的对齐度。最后,运动优化器根据评估结果对生成动作进行优化,使其更符合文本描述。这个过程可以重复多次,直到生成满意的动作。整个训练过程分为三个阶段,逐步提升模型的能力。
关键创新:IRG-MotionLLM的关键创新在于提出了交错推理的范式,将运动生成、评估和优化紧密结合。与以往将这三个任务分离的方法不同,IRG-MotionLLM通过迭代的反馈机制,实现了知识在生成和理解之间的双向流动。此外,本文还构建了一个自动数据引擎,用于合成交错推理的训练数据,解决了缺乏相关数据的问题。
关键设计:IRG-MotionLLM采用了一种三阶段的训练方案。第一阶段,初始化模型,使其具备基本的运动生成、评估和优化能力。第二阶段,增强模型在交错推理过程中的表现,使其能够更好地利用评估结果来指导生成过程。第三阶段,对模型进行微调,以进一步提高生成动作的质量和与文本描述的对齐度。损失函数方面,采用了多种损失函数的组合,包括生成损失、评估损失和优化损失,以确保模型在各个方面都能够达到最佳性能。具体网络结构细节未明确给出,但强调了对现有MotionLLM的改进和扩展。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IRG-MotionLLM在文本到动作生成任务上取得了显著的性能提升。与基线模型相比,IRG-MotionLLM在多个指标上都取得了更好的结果,包括动作质量、与文本描述的对齐度等。交叉评估器测试进一步验证了IRG-MotionLLM的有效性,表明其生成的动作不仅在数值指标上表现良好,而且在视觉上也更符合人类的期望。
🎯 应用场景
IRG-MotionLLM在人机交互、游戏开发、动画制作等领域具有广泛的应用前景。它可以用于生成逼真的人体动作,从而增强用户体验。例如,在虚拟现实游戏中,IRG-MotionLLM可以根据玩家的语音或文本指令生成相应的角色动作,使游戏更加生动有趣。此外,该技术还可以用于辅助动画制作,提高动画制作的效率和质量。
📄 摘要(原文)
Recent advances in motion-aware large language models have shown remarkable promise for unifying motion understanding and generation tasks. However, these models typically treat understanding and generation separately, limiting the mutual benefits that could arise from interactive feedback between tasks. In this work, we reveal that motion assessment and refinement tasks act as crucial bridges to enable bidirectional knowledge flow between understanding and generation. Leveraging this insight, we propose Interleaved Reasoning for Motion Generation (IRMoGen), a novel paradigm that tightly couples motion generation with assessment and refinement through iterative text-motion dialogue. To realize this, we introduce IRG-MotionLLM, the first model that seamlessly interleaves motion generation, assessment, and refinement to improve generation performance. IRG-MotionLLM is developed progressively with a novel three-stage training scheme, initializing and subsequently enhancing native IRMoGen capabilities. To facilitate this development, we construct an automated data engine to synthesize interleaved reasoning annotations from existing text-motion datasets. Extensive experiments demonstrate that: (i) Assessment and refinement tasks significantly improve text-motion alignment; (ii) Interleaving motion generation, assessment, and refinement steps yields consistent performance gains across training stages; and (iii) IRG-MotionLLM clearly outperforms the baseline model and achieves advanced performance on standard text-to-motion generation benchmarks. Cross-evaluator testing further validates its effectiveness. Code & Data: https://github.com/HumanMLLM/IRG-MotionLLM/tree/main.