HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation
作者: Yi Li, Yuquan Deng, Jesse Zhang, Joel Jang, Marius Memmel, Raymond Yu, Caelan Reed Garrett, Fabio Ramos, Dieter Fox, Anqi Li, Abhishek Gupta, Ankit Goyal
分类: cs.RO, cs.AI, cs.CV
发布日期: 2025-02-08 (更新: 2025-05-10)
备注: update related work and results on VQA benchmarks
💡 一句话要点
HAMSTER:用于开放世界机器人操作的分层动作模型
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 分层模型 视觉-语言-动作模型 开放世界 领域泛化
📋 核心要点
- 机器人数据获取成本高昂,限制了机器人领域大型基础模型的泛化能力,需要利用更廉价的非领域数据。
- 提出分层视觉-语言-动作模型HAMSTER,通过解耦任务,利用高级VLM生成粗略轨迹,指导低级策略。
- 实验表明,HAMSTER在真实机器人实验中,相比OpenVLA,成功率平均提高了20%,相对增益达50%。
📝 摘要(中文)
大型基础模型在视觉和语言等复杂问题上表现出强大的开放世界泛化能力,但机器人领域尚未达到类似水平。一个根本挑战是机器人数据的匮乏,这些数据通常通过昂贵的机器人操作获得。一个有希望的补救方法是利用更便宜的、非领域数据,如无动作视频、手绘草图或仿真数据。本文提出,分层视觉-语言-动作(VLA)模型在利用非领域数据方面比直接微调视觉-语言模型(VLM)以预测动作的标准单片VLA模型更有效。具体而言,我们研究了一类分层VLA模型,其中高级VLM被微调以生成粗略的2D路径,该路径指示给定RGB图像和任务描述的期望机器人末端执行器轨迹。然后,中间2D路径预测作为低级、3D感知控制策略的指导,该策略能够进行精确操作。这样做减轻了高级VLM的精细动作预测负担,同时降低了低级策略对复杂任务级推理的负担。我们表明,通过分层设计,高级VLM可以在非领域微调数据和真实机器人测试场景之间跨越显著的领域差距,包括在实体、动力学、视觉外观和任务语义等方面的差异。在真实机器人实验中,我们观察到在七个不同泛化轴上,成功率平均提高了20%,相对于OpenVLA,这是一个50%的相对增益。
🔬 方法详解
问题定义:现有机器人操作方法依赖大量真实机器人数据,获取成本高昂。直接微调视觉-语言模型(VLM)进行动作预测的单片VLA模型难以有效利用非领域数据,泛化能力受限。痛点在于难以同时处理高级任务推理和低级精确控制。
核心思路:将任务分解为高级规划和低级控制两个阶段,利用分层VLA模型解耦任务。高级VLM负责生成粗略的2D轨迹,降低了其对精细动作预测的要求;低级策略则专注于3D感知控制,减轻了其对复杂任务级推理的负担。这种分层结构使得模型能够更好地利用非领域数据,提高泛化能力。
技术框架:HAMSTER包含两个主要模块:高级VLM和低级3D感知控制策略。首先,高级VLM接收RGB图像和任务描述作为输入,输出期望的机器人末端执行器2D轨迹。然后,该2D轨迹作为指导信号传递给低级控制策略。低级策略根据2D轨迹和3D环境信息,生成具体的机器人动作指令,实现精确操作。
关键创新:核心创新在于分层VLA架构,将任务分解为高级规划和低级控制,并分别由不同的模块负责。这种解耦使得模型能够更好地利用非领域数据,并提高泛化能力。与直接微调VLM的单片模型相比,HAMSTER能够跨越更大的领域差距。
关键设计:高级VLM使用预训练的视觉-语言模型,并进行微调以预测2D轨迹。低级控制策略采用3D感知网络结构,能够根据2D轨迹和3D环境信息生成精确的动作指令。损失函数包括轨迹预测损失和动作执行损失。具体的网络结构和参数设置在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HAMSTER在真实机器人实验中,相比OpenVLA,成功率平均提高了20%,相对增益达50%。该提升在七个不同的泛化轴上均有体现,包括实体、动力学、视觉外观和任务语义等方面的差异。这表明HAMSTER具有更强的跨领域泛化能力,能够有效利用非领域数据。
🎯 应用场景
该研究成果可应用于各种机器人操作任务,尤其是在数据稀缺或需要跨领域泛化的场景中,例如家庭服务机器人、工业自动化、医疗机器人等。通过利用廉价的非领域数据,可以降低机器人部署成本,并提高其在复杂环境中的适应能力。未来,该方法有望扩展到更复杂的任务和更广泛的机器人平台。
📄 摘要(原文)
Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is the lack of robotic data, which are typically obtained through expensive on-robot operation. A promising remedy is to leverage cheaper, off-domain data such as action-free videos, hand-drawn sketches or simulation data. In this work, we posit that hierarchical vision-language-action (VLA) models can be more effective in utilizing off-domain data than standard monolithic VLA models that directly finetune vision-language models (VLMs) to predict actions. In particular, we study a class of hierarchical VLA models, where the high-level VLM is finetuned to produce a coarse 2D path indicating the desired robot end-effector trajectory given an RGB image and a task description. The intermediate 2D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Doing so alleviates the high-level VLM from fine-grained action prediction, while reducing the low-level policy's burden on complex task-level reasoning. We show that, with the hierarchical design, the high-level VLM can transfer across significant domain gaps between the off-domain finetuning data and real-robot testing scenarios, including differences on embodiments, dynamics, visual appearances and task semantics, etc. In the real-robot experiments, we observe an average of 20% improvement in success rate across seven different axes of generalization over OpenVLA, representing a 50% relative gain. Visual results, code, and dataset are provided at: https://hamster-robot.github.io/