CLAW: Composable Language-Annotated Whole-body Motion Generation
作者: Jianuo Cao, Yuxin Chen, Masayoshi Tomizuka
分类: cs.RO
发布日期: 2026-04-13
💡 一句话要点
CLAW:可组合的语言标注全身运动生成,用于人型机器人
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人型机器人 全身运动生成 语言标注 运动规划 物理仿真
📋 核心要点
- 现有人型机器人语言条件全身控制器训练依赖大规模数据集,但动作捕捉成本高,文本生成模型缺乏物理可行性。
- CLAW将运动规划器模式视为可组合模块,通过Web界面进行交互式数据收集,并使用低级控制器保证物理可行性。
- CLAW系统开源,旨在支持人型机器人学习中语言-运动配对数据的可扩展生成,促进相关研究。
📝 摘要(中文)
本文提出CLAW,一个交互式的、基于Web的流水线,用于大规模生成语言标注的全身运动数据,目标是Unitree G1人型机器人。现有的基于动作捕捉的方法成本高昂且多样性有限,而文本到运动的生成模型产生纯粹的运动学输出,无法保证物理可行性。CLAW将运动规划器的运动模式视为可组合的构建块,每个构建块由运动、朝向、速度、骨盆高度和持续时间参数化。CLAW提供两个基于浏览器的界面:实时键盘模式和基于时间轴的序列编辑器,用于探索性和批量数据收集。一个低级全身控制器在MuJoCo仿真中跟踪规划器的运动学参考,产生以50Hz记录的、物理上合理的轨迹。同时,一个确定性的、基于模板的标注引擎为每个片段和完整轨迹生成多种风格的自然语言描述。该系统开源发布,以支持人型机器人学习中语言-运动配对数据的可扩展生成。
🔬 方法详解
问题定义:现有人型机器人语言条件全身控制器训练需要大量运动轨迹与自然语言描述配对的数据集。然而,基于动作捕捉的数据集成本高昂且多样性有限,而文本到运动的生成模型产生的运动学输出无法保证物理可行性,难以直接应用于实际机器人控制。因此,如何高效、低成本地生成高质量的、物理上可行的语言标注全身运动数据是本文要解决的核心问题。
核心思路:本文的核心思路是将运动规划器的运动模式视为可组合的构建块,通过交互式的Web界面,允许用户灵活地组合这些模块,生成多样化的运动轨迹。同时,利用低级全身控制器在物理仿真环境中跟踪这些轨迹,保证运动的物理可行性。此外,采用基于模板的标注引擎自动生成与运动轨迹对应的自然语言描述,从而实现语言-运动配对数据的快速生成。
技术框架:CLAW系统的整体框架包含以下几个主要模块:1) 基于浏览器的交互界面:提供实时键盘模式和基于时间轴的序列编辑器,用于用户交互式地设计运动轨迹。2) 运动规划器:将运动模式视为可组合的构建块,并根据用户输入生成运动学参考轨迹。3) 低级全身控制器:在MuJoCo仿真环境中跟踪运动规划器生成的运动学参考轨迹,生成物理上可行的运动轨迹。4) 标注引擎:基于模板自动生成与运动轨迹对应的自然语言描述。5) 数据存储模块:存储生成的运动轨迹和对应的语言描述。
关键创新:CLAW系统的关键创新在于:1) 提出了将运动规划器的运动模式视为可组合构建块的思想,简化了运动轨迹的设计过程。2) 开发了交互式的Web界面,方便用户进行探索性和批量数据收集。3) 结合低级全身控制器和物理仿真,保证了生成运动轨迹的物理可行性。4) 采用基于模板的标注引擎,实现了语言-运动配对数据的自动生成。
关键设计:CLAW系统的一些关键设计包括:1) 运动规划器的运动模式参数化,包括运动、朝向、速度、骨盆高度和持续时间等。2) 低级全身控制器的设计,需要保证能够精确跟踪运动规划器生成的运动学参考轨迹,并处理机器人动力学约束。3) 标注引擎的模板设计,需要保证生成的自然语言描述的多样性和准确性。4) 系统以50Hz的频率记录运动轨迹,保证了数据的时序精度。
🖼️ 关键图片
📊 实验亮点
论文开源发布了CLAW系统,并展示了其在Unitree G1人型机器人上的应用。通过该系统,可以高效地生成大规模的语言标注全身运动数据,为训练高性能的语言条件全身控制器提供了有力支持。具体性能数据和对比基线未在摘要中明确提及,但开源系统本身即为重要贡献。
🎯 应用场景
CLAW系统生成的语言标注全身运动数据可用于训练人型机器人的语言条件全身控制器,使其能够根据自然语言指令执行复杂的运动任务。该系统可应用于机器人导航、人机交互、康复训练等领域,具有重要的实际应用价值和广阔的未来发展前景。通过开源发布,CLAW有望促进人型机器人学习领域的研究进展。
📄 摘要(原文)
Training language-conditioned whole-body controllers for humanoid robots requires large-scale datasets pairing motion trajectories with natural-language descriptions.Existing approaches based on motion capture are costly and limited in diversity, while text-to-motion generative models produce purely kinematic outputs that are not guaranteed to be physically feasible.Therefore, we present CLAW, an interactive web-based pipeline for scalable generation of language-annotated whole-body motion data for the Unitree G1 humanoid robot. CLAW treats the motion modes of a kinematic planner as composable building blocks, each parameterized by movement, heading, speed, pelvis height and duration, and provides two browser-based interfaces -- a real-time keyboard mode and a timeline-based sequence editor -- for exploratory and batch data collection. A low-level whole-body controller tracks the planner's kinematic references in MuJoCo simulation, producing physically grounded trajectories recorded at 50Hz. Simultaneously, a deterministic template-based annotation engine generates diverse natural-language descriptions at multiple stylistic registers for every segment and for the full trajectory. We release the system as open source to support scalable generation of language-motion paired data for humanoid robot learning.