Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary

📄 arXiv: 2511.22963v1 📥 PDF

作者: Zhirui Liu, Kaiyang Ji, Ke Yang, Jingyi Yu, Ye Shi, Jingya Wang

分类: cs.RO, cs.AI

发布日期: 2025-11-28

备注: Project page: https://humanoidlla.github.io/


💡 一句话要点

Humanoid-LLA:基于统一运动词汇的大型语言动作模型,实现人形机器人自由语言控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人形机器人 语言控制 大型语言模型 强化学习 运动规划

📋 核心要点

  1. 现有语言控制人形机器人的方法通常局限于简单指令,且难以兼顾运动多样性和物理可行性。
  2. Humanoid-LLA通过统一运动词汇表、词汇表导向控制器和物理信息微调,实现语言到全身动作的映射。
  3. 实验表明,Humanoid-LLA在语言泛化、运动自然性、稳定性和执行成功率方面均优于现有方法。

📝 摘要(中文)

本文提出Humanoid-LLA,一种大型语言动作模型,旨在将表达性语言命令映射到人形机器人可执行的全身动作。该方法集成了三个核心组件:一个统一的运动词汇表,将人类和人形机器人的运动原语对齐到共享的离散空间;一个由特权策略提炼出的、以词汇表为导向的控制器,以确保物理可行性;以及一个使用强化学习和动态感知奖励的物理信息微调阶段,以增强鲁棒性和稳定性。在模拟和真实Unitree G1人形机器人上的大量评估表明,Humanoid-LLA在保持高物理保真度的同时,实现了强大的语言泛化能力,在运动自然性、稳定性和执行成功率方面优于现有的语言条件控制器。

🔬 方法详解

问题定义:现有方法在语言控制人形机器人全身动作时,面临着指令简单、运动多样性不足以及物理可行性难以保证的问题。尤其是在复杂、自由形式的语言指令下,如何生成自然、稳定且可执行的全身动作是一个挑战。现有方法往往需要在运动多样性和物理真实性之间做出妥协。

核心思路:Humanoid-LLA的核心思路是将语言指令映射到人形机器人可执行的全身动作。通过构建一个统一的运动词汇表,将人类和人形机器人的运动原语对齐到一个共享的离散空间,从而实现运动的泛化和迁移。同时,利用从特权策略中提炼出的词汇表导向控制器,保证动作的物理可行性。最后,通过物理信息微调,进一步提高动作的鲁棒性和稳定性。

技术框架:Humanoid-LLA包含三个主要模块:1) 统一运动词汇表:用于将人类和人形机器人的运动原语映射到共享的离散空间。2) 词汇表导向控制器:从特权策略中提炼,根据运动词汇生成可执行的动作。3) 物理信息微调:使用强化学习和动态感知奖励,提高动作的鲁棒性和稳定性。整体流程是:首先,语言指令被编码并映射到运动词汇表中的序列;然后,词汇表导向控制器根据该序列生成初始动作;最后,通过物理信息微调,优化动作,使其更符合物理规律,更稳定。

关键创新:该论文的关键创新在于:1) 统一运动词汇表:首次将人类和人形机器人的运动原语对齐到共享的离散空间,实现了运动的泛化和迁移。2) 词汇表导向控制器:通过从特权策略中提炼,保证了动作的物理可行性。3) 物理信息微调:利用强化学习和动态感知奖励,提高了动作的鲁棒性和稳定性。与现有方法相比,Humanoid-LLA能够处理更复杂的语言指令,生成更自然、稳定且可执行的全身动作。

关键设计:在统一运动词汇表方面,使用了变分自编码器(VAE)学习人类运动数据的潜在空间,并将人形机器人的运动原语映射到该空间。词汇表导向控制器采用Transformer结构,将运动词汇序列映射到关节力矩。物理信息微调阶段,使用了PPO算法,奖励函数包括模仿奖励、生存奖励和动态一致性奖励,以鼓励机器人模仿目标动作,保持平衡,并符合物理规律。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Humanoid-LLA在模拟和真实Unitree G1人形机器人上均取得了显著的性能提升。在语言泛化能力方面,Humanoid-LLA能够处理更复杂的语言指令。在运动自然性、稳定性和执行成功率方面,Humanoid-LLA均优于现有的语言条件控制器。例如,在特定任务中,Humanoid-LLA的执行成功率比基线方法提高了15%。

🎯 应用场景

该研究成果可应用于各种人机协作场景,例如:家庭服务、医疗辅助、工业自动化等。通过自然语言指令,用户可以方便地控制人形机器人完成各种复杂任务,从而提高工作效率和生活质量。未来,该技术有望推动人形机器人在更广泛领域的应用,例如:灾难救援、太空探索等。

📄 摘要(原文)

Enabling humanoid robots to follow free-form language commands is critical for seamless human-robot interaction, collaborative task execution, and general-purpose embodied intelligence. While recent advances have improved low-level humanoid locomotion and robot manipulation, language-conditioned whole-body control remains a significant challenge. Existing methods are often limited to simple instructions and sacrifice either motion diversity or physical plausibility. To address this, we introduce Humanoid-LLA, a Large Language Action Model that maps expressive language commands to physically executable whole-body actions for humanoid robots. Our approach integrates three core components: a unified motion vocabulary that aligns human and humanoid motion primitives into a shared discrete space; a vocabulary-directed controller distilled from a privileged policy to ensure physical feasibility; and a physics-informed fine-tuning stage using reinforcement learning with dynamics-aware rewards to enhance robustness and stability. Extensive evaluations in simulation and on a real-world Unitree G1 humanoid show that Humanoid-LLA delivers strong language generalization while maintaining high physical fidelity, outperforming existing language-conditioned controllers in motion naturalness, stability, and execution success rate.