HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers
作者: Lizhi Yang, Junheng Li, Nehar Poddar, Yiling Hou, Gio Huh, Robert Griffin, Georgia Gkioxari, Aaron Ames
分类: cs.RO, cs.AI, cs.LG
发布日期: 2026-06-04
备注: 22 pages, 9 figures
💡 一句话要点
提出HANDOFF以解决人形机器人全身控制的指令空间问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 人形机器人 全身控制 任务空间 蒸馏学习 多教师模型 运动跟踪 跌倒恢复 自然语言处理
📋 核心要点
- 现有全身控制器需要密集的运动学参考,难以从任务语义中合成,限制了人形机器人的应用。
- 论文提出了HANDOFF,一个模块化的全身控制器,采用上下文条件门控的多教师KL蒸馏方法,提升了操作灵活性。
- 在Unitree G1上,HANDOFF实现了与最先进技术相当的速度跟踪,并提供了广泛的稳健操作工作空间。
📝 摘要(中文)
为了使人形机器人能够在现实世界中部署,指令空间的选择至关重要。现有的全身控制器通常需要密集的运动学或空间参考,规划者在从任务语义中合成这些参考时面临困难。为此,我们提出了HANDOFF,一个紧凑、明确的接口,直观、通用、模块化且足够表达多种操作技能。HANDOFF通过多教师KL蒸馏,在上下文条件门控方案下,从三个互补专家中提炼而成,分别是安全过滤数据的全身运动跟踪、运动和跌倒恢复。在Unitree G1上,HANDOFF实现了与最先进的速度跟踪相匹配,并提供了最大的稳健操作工作空间之一。我们进一步通过多个自然语言驱动的任务执行展示了硬件的可行性,使用了不依赖于任务特定数据或控制器微调的VLM驱动的智能规划器。
🔬 方法详解
问题定义:本论文旨在解决人形机器人在现实世界中部署时,指令空间选择带来的挑战。现有方法通常依赖于密集的运动学或空间参考,导致规划者难以从任务语义中合成所需的控制指令。
核心思路:我们提出了HANDOFF,一个紧凑且明确的接口,旨在提供直观、通用和模块化的全身控制能力。通过多教师KL蒸馏技术,HANDOFF能够从多个专家模型中提炼出有效的控制策略。
技术框架:HANDOFF的整体架构包括三个主要模块:全身运动跟踪模块、运动模块和跌倒恢复模块。通过上下文条件门控机制,系统能够根据任务需求动态选择合适的专家进行控制。
关键创新:最重要的创新在于引入了上下文条件门控的多教师KL蒸馏方法,使得控制器能够在不同任务间灵活切换,显著提升了操作的灵活性和安全性。
关键设计:在设计中,采用了安全过滤的数据进行全身运动跟踪,确保了控制的安全性。此外,系统的损失函数和网络结构经过精心设计,以优化各个模块的协同工作。
🖼️ 关键图片
📊 实验亮点
在实验中,HANDOFF在Unitree G1上实现了与最先进的速度跟踪相匹配,并提供了最大的稳健操作工作空间之一。通过自然语言驱动的任务执行,展示了其在没有任务特定数据或控制器微调的情况下的硬件可行性。
🎯 应用场景
该研究的潜在应用领域包括服务机器人、工业自动化和家庭助理等。通过提供灵活且安全的全身控制能力,HANDOFF能够在复杂环境中执行多样化的操作任务,具有重要的实际价值和广泛的未来影响。
📄 摘要(原文)
For a humanoid robot to be deployed in the real world, the choice of command space (i.e., the interface between task planning and whole-body control) is crucial. Existing whole-body controllers typically demand dense kinematic or spatial references that planners struggle to synthesize from task semantics. We instead propose a compact, explicit interface that is intuitive, general, modular, and expressive enough for diverse manipulation skills. To this end, we introduce HANDOFF, a single humanoid whole-body controller that follows this interface and is distilled via multi-teacher KL distillation under a context-conditioned gating scheme into a mixture-of-experts student from three complementary specialists: whole-body motion tracking with safety-filtered data, locomotion, and fall-recovery. On the Unitree G1, HANDOFF matches state-of-the-art velocity tracking and offers one of the largest robust manipulation workspaces. We further demonstrate hardware feasibility through multiple natural-language-driven task roll-outs, powered by a VLM-driven agentic planner with no task-specific data or controller fine-tuning.