HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers

作者: Lizhi Yang, Junheng Li, Nehar Poddar, Yiling Hou, Gio Huh, Robert Griffin, Georgia Gkioxari, Aaron Ames

分类: cs.RO, cs.AI, cs.LG

发布日期: 2026-06-04

备注: 22 pages, 9 figures

💡 一句话要点

提出HANDOFF以解决人形机器人全身控制的指令空间问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation)

关键词: 人形机器人 全身控制 任务空间 蒸馏学习 多教师模型 运动跟踪 跌倒恢复 自然语言处理

📋 核心要点

现有全身控制器需要密集的运动学参考，难以从任务语义中合成，限制了人形机器人的应用。
论文提出了HANDOFF，一个模块化的全身控制器，采用上下文条件门控的多教师KL蒸馏方法，提升了操作灵活性。
在Unitree G1上，HANDOFF实现了与最先进技术相当的速度跟踪，并提供了广泛的稳健操作工作空间。

📝 摘要（中文）

为了使人形机器人能够在现实世界中部署，指令空间的选择至关重要。现有的全身控制器通常需要密集的运动学或空间参考，规划者在从任务语义中合成这些参考时面临困难。为此，我们提出了HANDOFF，一个紧凑、明确的接口，直观、通用、模块化且足够表达多种操作技能。HANDOFF通过多教师KL蒸馏，在上下文条件门控方案下，从三个互补专家中提炼而成，分别是安全过滤数据的全身运动跟踪、运动和跌倒恢复。在Unitree G1上，HANDOFF实现了与最先进的速度跟踪相匹配，并提供了最大的稳健操作工作空间之一。我们进一步通过多个自然语言驱动的任务执行展示了硬件的可行性，使用了不依赖于任务特定数据或控制器微调的VLM驱动的智能规划器。

🔬 方法详解

问题定义：本论文旨在解决人形机器人在现实世界中部署时，指令空间选择带来的挑战。现有方法通常依赖于密集的运动学或空间参考，导致规划者难以从任务语义中合成所需的控制指令。

核心思路：我们提出了HANDOFF，一个紧凑且明确的接口，旨在提供直观、通用和模块化的全身控制能力。通过多教师KL蒸馏技术，HANDOFF能够从多个专家模型中提炼出有效的控制策略。

技术框架：HANDOFF的整体架构包括三个主要模块：全身运动跟踪模块、运动模块和跌倒恢复模块。通过上下文条件门控机制，系统能够根据任务需求动态选择合适的专家进行控制。

关键创新：最重要的创新在于引入了上下文条件门控的多教师KL蒸馏方法，使得控制器能够在不同任务间灵活切换，显著提升了操作的灵活性和安全性。

关键设计：在设计中，采用了安全过滤的数据进行全身运动跟踪，确保了控制的安全性。此外，系统的损失函数和网络结构经过精心设计，以优化各个模块的协同工作。

🖼️ 关键图片

📊 实验亮点

在实验中，HANDOFF在Unitree G1上实现了与最先进的速度跟踪相匹配，并提供了最大的稳健操作工作空间之一。通过自然语言驱动的任务执行，展示了其在没有任务特定数据或控制器微调的情况下的硬件可行性。

🎯 应用场景

该研究的潜在应用领域包括服务机器人、工业自动化和家庭助理等。通过提供灵活且安全的全身控制能力，HANDOFF能够在复杂环境中执行多样化的操作任务，具有重要的实际价值和广泛的未来影响。

📄 摘要（原文）

For a humanoid robot to be deployed in the real world, the choice of command space (i.e., the interface between task planning and whole-body control) is crucial. Existing whole-body controllers typically demand dense kinematic or spatial references that planners struggle to synthesize from task semantics. We instead propose a compact, explicit interface that is intuitive, general, modular, and expressive enough for diverse manipulation skills. To this end, we introduce HANDOFF, a single humanoid whole-body controller that follows this interface and is distilled via multi-teacher KL distillation under a context-conditioned gating scheme into a mixture-of-experts student from three complementary specialists: whole-body motion tracking with safety-filtered data, locomotion, and fall-recovery. On the Unitree G1, HANDOFF matches state-of-the-art velocity tracking and offers one of the largest robust manipulation workspaces. We further demonstrate hardware feasibility through multiple natural-language-driven task roll-outs, powered by a VLM-driven agentic planner with no task-specific data or controller fine-tuning.

HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理