OpenVLA: An Open-Source Vision-Language-Action Model
作者: Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
分类: cs.RO, cs.LG
发布日期: 2024-06-13 (更新: 2024-09-05)
备注: Website: https://openvla.github.io/
💡 一句话要点
OpenVLA:开源视觉-语言-动作模型,提升机器人通用操作能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 机器人学习 通用操作 开源模型 高效微调 多任务学习 模仿学习
📋 核心要点
- 现有视觉-语言-动作模型(VLA)闭源且缺乏高效微调方法,阻碍了其在机器人领域的广泛应用。
- OpenVLA通过开源一个大规模VLA模型,并探索高效微调方法,促进VLA在机器人领域的应用。
- OpenVLA在通用操作任务上超越了更大的闭源模型,并展示了在多任务环境中的强大泛化能力。
📝 摘要(中文)
本文提出了OpenVLA,一个70亿参数的开源视觉-语言-动作模型,它基于Llama 2语言模型,并融合了DINOv2和SigLIP的预训练视觉特征。OpenVLA在包含97万真实世界机器人演示的大规模数据集上进行训练,旨在解决现有VLA模型闭源且缺乏高效微调方法的问题。实验结果表明,OpenVLA在通用操作任务上表现出色,在29个任务和多种机器人形态中,其任务成功率绝对值超过了闭源模型RT-2-X(550亿参数)16.5%,且参数量减少了7倍。此外,OpenVLA能够有效地针对新环境进行微调,在涉及多个对象和强语言基础的多任务环境中表现出强大的泛化能力,优于从头开始训练的模仿学习方法Diffusion Policy 20.4%。该研究还探索了计算效率,证明OpenVLA可以通过低秩自适应方法在消费级GPU上进行微调,并通过量化实现高效服务,而不会影响下游任务的成功率。论文发布了模型检查点、微调notebook和PyTorch代码库,支持在Open X-Embodiment数据集上大规模训练VLA。
🔬 方法详解
问题定义:现有VLA模型主要存在两个痛点:一是模型闭源,研究人员难以访问和修改;二是缺乏高效的微调方法,使得针对新任务的训练成本高昂。这限制了VLA模型在机器人领域的广泛应用,阻碍了机器人学习新技能的效率。
核心思路:OpenVLA的核心思路是开源一个性能强大的VLA模型,并提供高效的微调方法,从而降低VLA模型的使用门槛,促进其在机器人领域的应用。通过结合大规模数据集和先进的模型架构,OpenVLA旨在实现更强的通用操作能力和泛化性能。
技术框架:OpenVLA的整体架构包括一个语言模型(Llama 2)和一个视觉编码器。视觉编码器融合了DINOv2和SigLIP的预训练特征,用于提取图像信息。整个模型在包含97万真实世界机器人演示的大规模数据集上进行训练。为了实现高效微调,研究人员探索了低秩自适应(LoRA)等方法。
关键创新:OpenVLA的关键创新在于其开源性和高效微调能力。通过开源模型,研究人员可以自由地访问、修改和扩展OpenVLA。通过高效的微调方法,OpenVLA可以快速适应新的任务和环境,降低了训练成本。此外,融合DINOv2和SigLIP的视觉编码器也是一个创新点,它能够提取更丰富的视觉特征。
关键设计:OpenVLA使用了70亿参数的Llama 2语言模型作为基础。视觉编码器通过线性层将DINOv2和SigLIP的特征进行融合。在微调过程中,研究人员使用了低秩自适应(LoRA)方法,只训练少量参数,从而降低了计算成本。损失函数方面,使用了标准的交叉熵损失函数。
🖼️ 关键图片
📊 实验亮点
OpenVLA在29个通用操作任务中,超越了参数量更大的闭源模型RT-2-X(550亿参数),任务成功率绝对值提升了16.5%。在多任务环境中,OpenVLA的泛化能力优于从头开始训练的模仿学习方法Diffusion Policy 20.4%。此外,OpenVLA可以通过低秩自适应方法在消费级GPU上进行微调,并通过量化实现高效服务,而不会影响下游任务的成功率。
🎯 应用场景
OpenVLA具有广泛的应用前景,包括工业自动化、家庭服务机器人、医疗机器人等领域。它可以用于训练机器人执行各种操作任务,例如物体抓取、装配、清洁等。通过结合自然语言指令,OpenVLA可以实现人机协作,使得机器人能够更好地理解人类意图并执行相应的任务。此外,OpenVLA还可以用于教育和研究,促进机器人技术的创新和发展。
📄 摘要(原文)
Large policies pretrained on a combination of Internet-scale vision-language data and diverse robot demonstrations have the potential to change how we teach robots new skills: rather than training new behaviors from scratch, we can fine-tune such vision-language-action (VLA) models to obtain robust, generalizable policies for visuomotor control. Yet, widespread adoption of VLAs for robotics has been challenging as 1) existing VLAs are largely closed and inaccessible to the public, and 2) prior work fails to explore methods for efficiently fine-tuning VLAs for new tasks, a key component for adoption. Addressing these challenges, we introduce OpenVLA, a 7B-parameter open-source VLA trained on a diverse collection of 970k real-world robot demonstrations. OpenVLA builds on a Llama 2 language model combined with a visual encoder that fuses pretrained features from DINOv2 and SigLIP. As a product of the added data diversity and new model components, OpenVLA demonstrates strong results for generalist manipulation, outperforming closed models such as RT-2-X (55B) by 16.5% in absolute task success rate across 29 tasks and multiple robot embodiments, with 7x fewer parameters. We further show that we can effectively fine-tune OpenVLA for new settings, with especially strong generalization results in multi-task environments involving multiple objects and strong language grounding abilities, and outperform expressive from-scratch imitation learning methods such as Diffusion Policy by 20.4%. We also explore compute efficiency; as a separate contribution, we show that OpenVLA can be fine-tuned on consumer GPUs via modern low-rank adaptation methods and served efficiently via quantization without a hit to downstream success rate. Finally, we release model checkpoints, fine-tuning notebooks, and our PyTorch codebase with built-in support for training VLAs at scale on Open X-Embodiment datasets.