Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

作者: Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta

分类: cs.RO, cs.CV

发布日期: 2026-02-18

备注: Project page: https://hero-humanoid.github.io/

💡 一句话要点

HERO：结合视觉大模型与模拟训练，实现人型机器人开放词汇视觉操作控制

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 人型机器人 视觉操作 末端执行器控制 开放词汇 视觉大模型

📋 核心要点

现有基于真实世界模仿学习的人形机器人操作方法，因难以收集大规模训练数据而泛化能力有限。
HERO结合视觉大模型的泛化能力和模拟训练的控制性能，设计残差感知末端执行器跟踪策略。
实验表明，HERO能有效降低末端执行器跟踪误差3.2倍，并在真实场景中可靠操作日常物品。

📝 摘要（中文）

本文提出了一种名为HERO的新范式，用于人型机器人的物体操作控制。该方法结合了大型视觉模型的泛化能力和开放词汇理解能力，以及模拟训练带来的强大控制性能。HERO通过设计精确的残差感知末端执行器（EE）跟踪策略实现这一目标。该策略融合了经典机器人学和机器学习，利用逆运动学将残差末端执行器目标转换为参考轨迹，使用学习到的神经前向模型进行精确的前向运动学预测，并结合目标调整和重规划。这些创新使得末端执行器跟踪误差降低了3.2倍。HERO利用此精确的末端执行器跟踪器构建了一个模块化的操作控制系统，并使用开放词汇大型视觉模型来实现强大的视觉泛化能力。该系统能够在办公室、咖啡馆等各种真实环境中运行，可靠地操作各种日常物品（如马克杯、苹果、玩具），操作表面高度范围从43厘米到92厘米。在仿真和真实世界中进行的系统模块化和端到端测试验证了所提出设计的有效性。

🔬 方法详解

问题定义：现有的人形机器人视觉操作控制方法依赖于真实世界数据的模仿学习，但真实世界数据的收集成本高昂且难以覆盖所有场景，导致模型泛化能力不足，难以应对开放词汇环境下的物体操作任务。

核心思路：HERO的核心思路是将大型视觉模型的强大泛化能力与模拟训练的精确控制性能相结合。通过在模拟环境中训练精确的末端执行器跟踪策略，并利用大型视觉模型理解场景，从而实现开放词汇环境下的物体操作。

技术框架：HERO系统包含以下主要模块：1) 视觉感知模块：利用大型视觉模型（如CLIP）理解场景，识别目标物体并估计其位姿。2) 末端执行器跟踪模块：该模块是HERO的核心，负责将期望的末端执行器位姿转换为机器人关节控制指令。3) 运动规划模块：负责规划机器人的全身运动，使其能够到达目标物体附近。4) 控制执行模块：负责执行运动规划的结果，控制机器人的关节运动。

关键创新：HERO最重要的技术创新点在于其残差感知末端执行器跟踪策略。该策略融合了经典机器人学和机器学习方法，利用逆运动学将残差末端执行器目标转换为参考轨迹，并使用学习到的神经前向模型进行精确的前向运动学预测。此外，该策略还包含目标调整和重规划机制，以应对环境变化和控制误差。

关键设计：残差感知末端执行器跟踪策略的关键设计包括：1) 使用逆运动学计算参考轨迹；2) 使用一个神经网络学习前向运动学模型，以补偿机器人模型的误差；3) 设计目标调整机制，根据实际执行情况调整目标位姿；4) 使用重规划机制，在执行过程中不断优化轨迹。

📊 实验亮点

HERO在仿真和真实世界中进行了系统评估。实验结果表明，HERO能够显著降低末端执行器跟踪误差，相比现有方法降低了3.2倍。此外，HERO还能够在各种真实环境中可靠地操作日常物品，证明了其强大的泛化能力和实用价值。例如，在办公室和咖啡馆等场景中，HERO能够成功操作马克杯、苹果和玩具等物体，操作表面高度范围从43厘米到92厘米。

🎯 应用场景

HERO的研究成果可应用于各种需要人型机器人进行物体操作的场景，例如家庭服务、仓储物流、医疗辅助等。该方法能够使机器人更好地理解人类指令，并在复杂环境中安全可靠地完成任务，从而提高生产效率和服务质量。未来，该技术有望进一步发展，实现更智能、更自主的人机协作。

📄 摘要（原文）

Visual loco-manipulation of arbitrary objects in the wild with humanoid robots requires accurate end-effector (EE) control and a generalizable understanding of the scene via visual inputs (e.g., RGB-D images). Existing approaches are based on real-world imitation learning and exhibit limited generalization due to the difficulty in collecting large-scale training datasets. This paper presents a new paradigm, HERO, for object loco-manipulation with humanoid robots that combines the strong generalization and open-vocabulary understanding of large vision models with strong control performance from simulated training. We achieve this by designing an accurate residual-aware EE tracking policy. This EE tracking policy combines classical robotics with machine learning. It uses a) inverse kinematics to convert residual end-effector targets into reference trajectories, b) a learned neural forward model for accurate forward kinematics, c) goal adjustment, and d) replanning. Together, these innovations help us cut down the end-effector tracking error by 3.2x. We use this accurate end-effector tracker to build a modular system for loco-manipulation, where we use open-vocabulary large vision models for strong visual generalization. Our system is able to operate in diverse real-world environments, from offices to coffee shops, where the robot is able to reliably manipulate various everyday objects (e.g., mugs, apples, toys) on surfaces ranging from 43cm to 92cm in height. Systematic modular and end-to-end tests in simulation and the real world demonstrate the effectiveness of our proposed design. We believe the advances in this paper can open up new ways of training humanoid robots to interact with daily objects.

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理