Re$^2$MoGen: Open-Vocabulary Motion Generation via LLM Reasoning and Physics-Aware Refinement
作者: Jiakun Zheng, Ting Xiao, Shiqin Cao, Xinran Li, Zhe Wang, Chenjia Bai
分类: cs.CV, cs.RO
发布日期: 2026-04-20
💡 一句话要点
Re$^2$MoGen:利用LLM推理和物理感知优化实现开放词汇运动生成
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到运动生成 开放词汇 大型语言模型 强化学习 物理感知 运动规划 蒙特卡洛树搜索
📋 核心要点
- 现有T2M模型在处理超出训练数据分布的文本描述时,运动生成质量显著下降,泛化能力不足。
- Re$^2$MoGen利用LLM进行运动规划,并结合物理感知的强化学习进行优化,提升生成运动的合理性。
- 实验结果表明,Re$^2$MoGen在开放词汇运动生成任务中取得了SOTA性能,生成了语义一致且物理合理的运动。
📝 摘要(中文)
本文提出Re$^2$MoGen,一个基于推理和优化的开放词汇运动生成框架,旨在通过文本描述控制目标角色的行为。现有文本到运动(T2M)模型在训练数据分布内生成高质量运动方面表现出色,但当运动描述与训练文本差异显著时,性能会显著下降。Re$^2$MoGen利用增强的大型语言模型(LLM)推理生成初始运动规划,然后通过强化学习(RL)后训练来优化其物理合理性。具体来说,Re$^2$MoGen包含三个阶段:首先,采用蒙特卡洛树搜索增强LLM的推理能力,基于文本提示生成合理的运动关键帧,仅指定根关节和几个关键关节的位置以简化推理过程。然后,应用人体姿势模型作为先验,优化基于规划关键帧的全身姿势,并使用生成的非完整运动通过动态时间匹配目标监督微调预训练的运动生成器,实现时空补全。最后,使用物理感知奖励进行后训练,以提高运动质量,消除LLM规划运动中的物理不合理性。大量实验表明,该框架可以生成语义一致且物理上合理的运动,并在开放词汇运动生成中实现最先进的性能。
🔬 方法详解
问题定义:现有文本到运动生成模型在处理与训练数据差异较大的文本描述时,性能会显著下降。这些模型难以泛化到开放词汇场景,生成的运动可能在语义上不一致或在物理上不合理。
核心思路:Re$^2$MoGen的核心思路是利用大型语言模型(LLM)的强大推理能力生成运动规划,然后通过物理感知的强化学习对运动进行优化,从而提高生成运动的语义一致性和物理合理性。这种方法将LLM的知识和推理能力与物理约束相结合,克服了传统方法的局限性。
技术框架:Re$^2$MoGen框架包含三个主要阶段: 1. LLM运动规划:使用蒙特卡洛树搜索增强LLM的推理能力,根据文本提示生成运动的关键帧。 2. 运动补全:利用人体姿势模型作为先验,优化基于关键帧的全身姿势,并使用动态时间匹配目标函数微调预训练的运动生成器,实现时空补全。 3. 物理感知优化:使用强化学习进行后训练,通过物理感知奖励函数优化运动的物理合理性。
关键创新:Re$^2$MoGen的关键创新在于将LLM的推理能力与物理感知的强化学习相结合,用于开放词汇运动生成。这种方法能够生成语义一致且物理合理的运动,克服了传统方法在处理超出训练数据分布的文本描述时的局限性。此外,使用蒙特卡洛树搜索增强LLM的推理能力,以及使用动态时间匹配目标函数进行运动补全,也是重要的技术创新。
关键设计:在LLM运动规划阶段,仅指定根关节和几个关键关节的位置,以简化推理过程。在运动补全阶段,使用预训练的运动生成器,并通过动态时间匹配目标函数进行微调,以实现时空补全。在物理感知优化阶段,设计了物理感知奖励函数,用于评估运动的物理合理性,并使用强化学习算法优化运动。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Re$^2$MoGen在开放词汇运动生成任务中取得了最先进的性能。与现有方法相比,Re$^2$MoGen能够生成语义一致且物理合理的运动,显著提高了运动的质量和逼真度。具体的性能数据和对比基线在论文中有详细展示。
🎯 应用场景
Re$^2$MoGen可应用于虚拟现实、游戏开发、动画制作等领域,实现根据文本描述自动生成逼真的人物运动。该技术能够降低内容创作成本,提高创作效率,并为用户提供更加个性化和沉浸式的体验。未来,该技术有望应用于机器人控制领域,实现机器人根据自然语言指令执行复杂动作。
📄 摘要(原文)
Text-to-motion (T2M) generation aims to control the behavior of a target character via textual descriptions. Leveraging text-motion paired datasets, existing T2M models have achieved impressive performance in generating high-quality motions within the distribution of their training data. However, their performance deteriorates notably when the motion descriptions differ significantly from the training texts. To address this issue, we propose Re$^2$MoGen, a Reasoning and Refinement open-vocabulary Motion Generation framework that leverages enhanced Large Language Model (LLM) reasoning to generate an initial motion planning and then refine its physical plausibility via reinforcement learning (RL) post-training. Specifically, Re$^2$MoGen consists of three stages: We first employ Monte Carlo tree search to enhance the LLM's reasoning ability in generating reasonable keyframes of the motion based on text prompts, specifying only the root and several key joints' positions to ease the reasoning process. Then, we apply a human pose model as a prior to optimize the full-body poses based on the planned keyframes and use the resulting incomplete motion to supervise fine-tuning a pre-trained motion generator via a dynamic temporal matching objective, enabling spatiotemporal completion. Finally, we use post-training with physics-aware reward to refine motion quality to eliminate physical implausibility in LLM-planned motions. Extensive experiments demonstrate that our framework can generate semantically consistent and physically plausible motions and achieve state-of-the-art performance in open-vocabulary motion generation.