QuadFM: Foundational Text-Driven Quadruped Motion Dataset for Generation and Control

📄 arXiv: 2603.24021v1 📥 PDF

作者: Li Gao, Fuzhi Yang, Jianhui Chen, Liu Liu, Yao Zheng, Yang Cai, Ziqiao Li

分类: cs.RO

发布日期: 2026-03-25

🔗 代码/项目: GITHUB


💡 一句话要点

QuadFM:用于生成与控制的文本驱动四足机器人运动数据集

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 四足机器人 运动数据集 文本到运动生成 强化学习 运动控制

📋 核心要点

  1. 现有四足机器人运动数据集缺乏多样性,主要集中在行走、小跑、坐立等基本动作,难以支持复杂的人机交互。
  2. QuadFM数据集通过收集包含情感表达和交互行为的运动数据,并结合多层次的文本标注,弥补了现有数据集的不足。
  3. 提出的Gen2Control RL框架,能够联合训练运动控制器和文本到运动生成器,并在真实机器人上实现了实时运动合成。

📝 摘要(中文)

本文提出了Quadruped Foundational Motion (QuadFM),这是一个大规模、超高保真度的四足机器人运动数据集,专为文本到运动生成和通用运动控制而设计。QuadFM包含11784个精心策划的运动片段,涵盖了运动、交互和情感表达行为(例如,跳舞、伸展、撒尿)。每个片段都有三层注释:细粒度的动作标签、交互场景和自然语言命令,总计35352个描述,以支持语言条件下的理解和命令执行。此外,本文还提出了Gen2Control RL,一个统一的框架,联合训练通用运动控制器和文本到运动生成器,从而能够在边缘硬件上实现高效的端到端推理。在配备NVIDIA Orin的真实四足机器人上,该系统实现了实时运动合成(<500毫秒延迟)。仿真和真实世界的结果表明,该方法能够生成逼真、多样的运动,同时保持强大的物理交互。

🔬 方法详解

问题定义:现有四足机器人运动数据集规模小,动作类型单一,缺乏对情感表达和复杂交互行为的覆盖,难以满足高级人机交互的需求。现有方法难以实现基于自然语言指令的复杂运动控制,并且在边缘设备上的实时性表现不佳。

核心思路:本文的核心思路是构建一个大规模、高质量的四足机器人运动数据集,并设计一个能够联合训练运动控制器和文本到运动生成器的框架。通过丰富的数据和有效的训练方法,实现基于文本指令的四足机器人运动生成和控制。

技术框架:Gen2Control RL框架包含两个主要模块:文本到运动生成器和通用运动控制器。文本到运动生成器负责根据输入的文本指令生成目标运动轨迹,通用运动控制器负责根据目标运动轨迹控制四足机器人执行相应的动作。这两个模块通过强化学习进行联合训练,以实现端到端的优化。

关键创新:该论文的关键创新在于QuadFM数据集的构建和Gen2Control RL框架的设计。QuadFM数据集是首个大规模、超高保真度的四足机器人运动数据集,包含了丰富的动作类型和多层次的文本标注。Gen2Control RL框架能够联合训练运动控制器和文本到运动生成器,从而实现高效的端到端推理。

关键设计:QuadFM数据集的标注采用了三层结构:细粒度的动作标签、交互场景和自然语言命令。Gen2Control RL框架使用了强化学习算法进行训练,并针对四足机器人的运动控制特点进行了优化。在真实机器人实验中,使用了NVIDIA Orin作为边缘计算平台,以实现实时运动合成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Gen2Control RL框架能够在真实四足机器人上实现实时运动合成(<500毫秒延迟)。仿真和真实世界的结果表明,该方法能够生成逼真、多样的运动,同时保持强大的物理交互。与现有方法相比,该方法在运动生成质量和控制精度方面都有显著提升。

🎯 应用场景

该研究成果可应用于多种场景,例如:搜救机器人、导盲犬机器人、娱乐机器人等。通过自然语言指令,用户可以方便地控制四足机器人执行各种任务,例如:在复杂环境中进行搜索、引导盲人行走、表演舞蹈等。该研究还有助于推动人机交互技术的发展,使机器人能够更好地理解人类意图,并做出相应的反应。

📄 摘要(原文)

Despite significant advances in quadrupedal robotics, a critical gap persists in foundational motion resources that holistically integrate diverse locomotion, emotionally expressive behaviors, and rich language semantics-essential for agile, intuitive human-robot interaction. Current quadruped motion datasets are limited to a few mocap primitives (e.g., walk, trot, sit) and lack diverse behaviors with rich language grounding. To bridge this gap, we introduce Quadruped Foundational Motion (QuadFM) , the first large-scale, ultra-high-fidelity dataset designed for text-to-motion generation and general motion control. QuadFM contains 11,784 curated motion clips spanning locomotion, interactive, and emotion-expressive behaviors (e.g., dancing, stretching, peeing), each with three-layer annotation-fine-grained action labels, interaction scenarios, and natural language commands-totaling 35,352 descriptions to support language-conditioned understanding and command execution. We further propose Gen2Control RL, a unified framework that jointly trains a general motion controller and a text-to-motion generator, enabling efficient end-to-end inference on edge hardware. On a real quadruped robot with an NVIDIA Orin, our system achieves real-time motion synthesis (<500 ms latency). Simulation and real-world results show realistic, diverse motions while maintaining robust physical interaction. The dataset will be released at https://github.com/GaoLii/QuadFM.