FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions
作者: Peng Li, Zihan Zhuang, Yangfan Gao, Yi Dong, Sixian Li, Changhao Jiang, Shihan Dou, Zhiheng Xi, Enyu Zhou, Jixuan Huang, Hui Li, Jingjing Gong, Xingjun Ma, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang, Xipeng Qiu
分类: cs.RO, cs.CL, cs.CV
发布日期: 2026-01-19
备注: Project Page: https://openmoss.github.io/FRoM-W1
💡 一句话要点
FRoM-W1:提出基于自然语言指令的通用人形机器人全身控制框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人形机器人 全身控制 自然语言指令 运动生成 强化学习
📋 核心要点
- 现有的人形机器人运动控制方法通常是硬编码或专门训练的,缺乏通用性和灵活性。
- FRoM-W1框架通过H-GPT生成自然运动,再通过H-ACT将运动迁移到机器人并进行强化学习微调,实现语言驱动的全身控制。
- 实验表明,FRoM-W1在运动生成和机器人控制方面均表现出色,并在Unitree H1和G1机器人上验证了其有效性。
📝 摘要(中文)
本文提出了FRoM-W1,一个开源框架,旨在实现使用自然语言进行通用人形机器人全身运动控制。为了通用地理解自然语言并生成相应的运动,以及使各种人形机器人在重力作用下于物理世界中稳定地执行这些运动,FRoM-W1分两个阶段运行:(a) H-GPT:利用大量人类数据,训练一个大规模的语言驱动的人类全身运动生成模型,以生成多样化的自然行为。我们进一步利用思维链技术来提高模型在指令理解方面的泛化能力。(b) H-ACT:在将生成的人类全身运动重新定向到机器人特定的动作后,一个通过物理模拟中的强化学习进行预训练和进一步微调的运动控制器,使人形机器人能够准确和稳定地执行相应的动作。然后通过模块化的模拟到现实模块将其部署在真实的机器人上。我们在Unitree H1和G1机器人上广泛评估了FRoM-W1。结果表明,该框架在HumanML3D-X基准测试中表现出卓越的人体全身运动生成性能,并且我们引入的强化学习微调始终提高了这些人形机器人的运动跟踪精度和任务成功率。我们开源了整个FRoM-W1框架,并希望它能促进人形智能的发展。
🔬 方法详解
问题定义:论文旨在解决人形机器人难以根据自然语言指令执行复杂全身运动的问题。现有方法依赖于预定义的动作库或针对特定任务的训练,泛化能力差,难以适应新的指令和环境。
核心思路:论文的核心思路是将自然语言理解与机器人运动控制解耦为两个阶段。首先,利用大规模人类运动数据训练一个语言驱动的运动生成模型(H-GPT),使其能够理解自然语言指令并生成相应的自然人类运动。然后,将生成的人类运动迁移到机器人,并通过强化学习(H-ACT)进行微调,使机器人能够稳定、准确地执行这些运动。
技术框架:FRoM-W1框架包含两个主要模块:H-GPT和H-ACT。H-GPT是一个基于Transformer的语言驱动的人类全身运动生成模型,它接收自然语言指令作为输入,并生成相应的3D人体运动序列。H-ACT模块负责将H-GPT生成的运动序列迁移到机器人,并通过强化学习进行微调,以提高机器人的运动跟踪精度和任务成功率。此外,框架还包含一个模拟到现实(Sim-to-Real)模块,用于将训练好的控制器部署到真实的机器人上。
关键创新:该论文的关键创新在于将大规模语言模型应用于人形机器人的运动控制,并提出了一种两阶段的框架,将运动生成和运动控制解耦。H-GPT利用思维链技术来提高模型在指令理解方面的泛化能力。H-ACT通过强化学习进行微调,提高了机器人在真实环境中的稳定性和鲁棒性。
关键设计:H-GPT模型采用了Transformer架构,并使用大规模人类运动数据集进行训练。H-ACT模块使用强化学习算法(具体算法未知)对运动控制器进行微调,目标是最小化运动跟踪误差和最大化任务成功率。Sim-to-Real模块的具体实现细节未知,但可能包括域随机化等技术。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FRoM-W1在HumanML3D-X基准测试中取得了优异的运动生成性能。此外,在Unitree H1和G1机器人上的实验表明,通过强化学习微调,机器人的运动跟踪精度和任务成功率得到了显著提高(具体提升幅度未知)。
🎯 应用场景
FRoM-W1框架具有广泛的应用前景,例如:家庭服务机器人、医疗康复机器人、工业协作机器人等。通过自然语言指令,用户可以轻松地控制人形机器人执行各种任务,而无需进行复杂的编程或手动示教。该研究有望推动人形机器人在日常生活中的普及和应用。
📄 摘要(原文)
Humanoid robots are capable of performing various actions such as greeting, dancing and even backflipping. However, these motions are often hard-coded or specifically trained, which limits their versatility. In this work, we present FRoM-W1, an open-source framework designed to achieve general humanoid whole-body motion control using natural language. To universally understand natural language and generate corresponding motions, as well as enable various humanoid robots to stably execute these motions in the physical world under gravity, FRoM-W1 operates in two stages: (a) H-GPT: utilizing massive human data, a large-scale language-driven human whole-body motion generation model is trained to generate diverse natural behaviors. We further leverage the Chain-of-Thought technique to improve the model's generalization in instruction understanding. (b) H-ACT: After retargeting generated human whole-body motions into robot-specific actions, a motion controller that is pretrained and further fine-tuned through reinforcement learning in physical simulation enables humanoid robots to accurately and stably perform corresponding actions. It is then deployed on real robots via a modular simulation-to-reality module. We extensively evaluate FRoM-W1 on Unitree H1 and G1 robots. Results demonstrate superior performance on the HumanML3D-X benchmark for human whole-body motion generation, and our introduced reinforcement learning fine-tuning consistently improves both motion tracking accuracy and task success rates of these humanoid robots. We open-source the entire FRoM-W1 framework and hope it will advance the development of humanoid intelligence.