ECHO: Edge-Cloud Humanoid Orchestration for Language-to-Motion Control

📄 arXiv: 2603.16188v1 📥 PDF

作者: Haozhe Jia, Jianfei Song, Yuan Zhang, Honglei Jin, Youcheng Fan, Wenshuo Chen, Wei Zhang, Yutao Yue

分类: cs.CV

发布日期: 2026-03-17


💡 一句话要点

ECHO:面向语言驱动的人形机器人全身控制的边缘-云协同框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人形机器人 语言驱动控制 边缘计算 云机器人 扩散模型 强化学习 sim-to-real

📋 核心要点

  1. 现有方法难以实现自然语言驱动的人形机器人全身控制,尤其是在真实环境中鲁棒性不足。
  2. ECHO框架利用云端生成运动参考,边缘端进行闭环跟踪,并采用紧凑的运动表示以提高效率和兼容性。
  3. 实验表明,ECHO在HumanML3D上取得了优异的生成质量,并在Unitree G1机器人上实现了稳定的真实世界控制。

📝 摘要(中文)

本文提出ECHO,一个用于语言驱动的人形机器人全身控制的边缘-云框架。云端托管的基于扩散模型的文本到动作生成器从自然语言指令合成运动参考,而边缘部署的强化学习跟踪器在机器人上闭环执行它们。这两个模块通过紧凑的、机器人原生的38维运动表示连接,该表示编码关节角度、根平面速度、根高度以及每帧的连续6D根方向,消除了推理时从人体模型进行重定向的需求,并保持与低级PD控制的直接兼容性。生成器采用具有交叉注意力的1D卷积UNet,以CLIP编码的文本特征为条件;在推理时,使用10个去噪步骤和无分类器指导的DDIM采样在大约一秒钟内在云GPU上生成运动序列。跟踪器遵循Teacher-Student范式:一个特权教师策略被提炼成一个配备了用于sim-to-real迁移的证据适应模块的轻量级学生,并通过形态对称约束和领域随机化进一步加强。自主跌倒恢复机制通过板载IMU读数检测跌倒,并从预先构建的运动库中检索恢复轨迹。我们在重新定位的HumanML3D基准上评估ECHO,在统一的机器人领域评估器下,它实现了强大的生成质量(FID 0.029,R-Precision Top-1 0.686),同时保持了高运动安全性和轨迹一致性。在Unitree G1人形机器人上的真实世界实验证明了在零硬件微调下对各种文本命令的稳定执行。

🔬 方法详解

问题定义:现有方法在将自然语言指令转化为人形机器人全身运动控制时,面临着计算资源需求高、真实环境适应性差等问题。特别是,从人体运动数据到机器人运动的转换(retargeting)过程复杂且耗时,难以满足实时控制的需求。

核心思路:ECHO的核心思路是将运动生成和运动控制解耦,利用云端强大的计算能力进行高质量的运动生成,然后在边缘端进行快速、鲁棒的运动跟踪。通过紧凑的机器人原生运动表示,避免了复杂的retargeting过程,提高了系统的整体效率和实时性。

技术框架:ECHO框架包含两个主要模块:云端运动生成器和边缘端运动跟踪器。云端运动生成器使用基于扩散模型的文本到动作生成器,从自然语言指令合成运动参考。边缘端运动跟踪器则使用强化学习策略,在机器人上闭环执行这些运动参考。此外,框架还包含一个自主跌倒恢复机制,用于在机器人跌倒时自动恢复。

关键创新:ECHO的关键创新在于其边缘-云协同架构和紧凑的机器人原生运动表示。边缘-云协同架构充分利用了云端的计算资源和边缘端的实时性,实现了高效的运动生成和控制。紧凑的机器人原生运动表示消除了推理时从人体模型进行重定向的需求,简化了系统设计,提高了实时性。

关键设计:运动生成器采用1D卷积UNet,并使用CLIP编码的文本特征作为条件。推理时,使用DDIM采样和无分类器指导生成运动序列。运动跟踪器采用Teacher-Student范式,将一个特权教师策略提炼成一个轻量级学生策略,并使用证据适应模块进行sim-to-real迁移。此外,还使用了形态对称约束和领域随机化来提高策略的鲁棒性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

ECHO在HumanML3D基准测试中取得了显著成果,FID得分为0.029,R-Precision Top-1为0.686,表明其具有强大的运动生成能力。此外,在Unitree G1人形机器人上的真实世界实验验证了ECHO的稳定性和鲁棒性,无需硬件微调即可执行各种文本命令。

🎯 应用场景

ECHO框架可应用于各种需要自然语言控制的人形机器人应用场景,例如:家庭服务、医疗辅助、工业自动化等。该研究成果有助于提升人形机器人的智能化水平和人机交互能力,使其能够更好地理解人类指令并完成复杂任务,具有广阔的应用前景。

📄 摘要(原文)

We present ECHO, an edge--cloud framework for language-driven whole-body control of humanoid robots. A cloud-hosted diffusion-based text-to-motion generator synthesizes motion references from natural language instructions, while an edge-deployed reinforcement-learning tracker executes them in closed loop on the robot. The two modules are bridged by a compact, robot-native 38-dimensional motion representation that encodes joint angles, root planar velocity, root height, and a continuous 6D root orientation per frame, eliminating inference-time retargeting from human body models and remaining directly compatible with low-level PD control. The generator adopts a 1D convolutional UNet with cross-attention conditioned on CLIP-encoded text features; at inference, DDIM sampling with 10 denoising steps and classifier-free guidance produces motion sequences in approximately one second on a cloud GPU. The tracker follows a Teacher--Student paradigm: a privileged teacher policy is distilled into a lightweight student equipped with an evidential adaptation module for sim-to-real transfer, further strengthened by morphological symmetry constraints and domain randomization. An autonomous fall recovery mechanism detects falls via onboard IMU readings and retrieves recovery trajectories from a pre-built motion library. We evaluate ECHO on a retargeted HumanML3D benchmark, where it achieves strong generation quality (FID 0.029, R-Precision Top-1 0.686) under a unified robot-domain evaluator, while maintaining high motion safety and trajectory consistency. Real-world experiments on a Unitree G1 humanoid demonstrate stable execution of diverse text commands with zero hardware fine-tuning.