ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models
作者: Sombit Dey, Jan-Nico Zaech, Nikolay Nikolov, Luc Van Gool, Danda Pani Paudel
分类: cs.CV, cs.RO
发布日期: 2024-09-23 (更新: 2025-05-20)
备注: Accepted at ICRA-2025, Atlanta
💡 一句话要点
ReVLA:通过模型融合逆转机器人视觉基础模型的视觉领域限制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人视觉 领域泛化 模型融合 灾难性遗忘 视觉语言动作模型
📋 核心要点
- 现有机器人视觉基础模型在视觉领域外泛化能力不足,主要原因是训练数据多样性有限以及灾难性遗忘。
- 论文提出一种基于模型融合的渐进式骨干逆转方法,使模型在适应新任务的同时,恢复视觉泛化能力。
- 实验结果表明,ReVLA模型在视觉领域外任务中,抓取和提升性能显著优于OpenVLA,分别提升了77%和66%。
📝 摘要(中文)
大型语言模型和大规模机器人数据集的出现,推动了机器人模型向通用方向发展,使其能够适应各种任务、场景和机器人形态。开放的视觉-语言-动作模型(VLA)是社区的一大进步,在各种任务中表现出强大的性能。本文研究了三种现有机器人基础模型的视觉泛化能力,并提出了相应的评估框架。研究表明,现有模型在视觉领域外(OOD)场景中缺乏鲁棒性,这可能是由于训练数据变化有限和/或灾难性遗忘造成的。进一步探索了OpenVLA,它使用两个预训练的视觉基础模型,因此有望推广到领域外实验。然而,本文展示了DINO-v2在OpenVLA中深度回归任务上的失败,揭示了灾难性遗忘。为了克服视觉灾难性遗忘问题,本文提出了一种基于模型合并的渐进式骨干逆转方法。这使得OpenVLA(需要在初始训练期间调整视觉骨干)能够重新获得其视觉泛化能力。ReVLA模型在视觉OOD任务中,抓取和提升性能分别比OpenVLA提高了77%和66%。
🔬 方法详解
问题定义:现有机器人视觉基础模型在面对视觉领域外(OOD)数据时,泛化能力显著下降。即使是利用预训练视觉模型(如DINO-v2)的OpenVLA,也存在灾难性遗忘问题,导致在深度回归等任务上表现不佳。这限制了机器人在真实世界复杂环境中的应用。
核心思路:论文的核心思路是通过模型合并,逐步将OpenVLA的视觉骨干网络“逆转”回其原始的、具有更强泛化能力的预训练状态。通过这种方式,模型可以在适应特定机器人任务的同时,保留甚至恢复其在视觉领域的泛化能力,从而克服灾难性遗忘。
技术框架:ReVLA的整体框架基于OpenVLA,但增加了骨干逆转模块。训练过程分为两个阶段:首先,按照OpenVLA的方式训练模型,使其适应机器人任务。然后,使用模型合并技术,逐步将视觉骨干网络(例如DINO-v2)的权重向其原始预训练权重方向调整。这个过程可以迭代进行,直到模型在领域外数据上表现出足够的泛化能力。
关键创新:关键创新在于提出了渐进式骨干逆转方法,利用模型合并技术,在不完全放弃已学习的机器人任务知识的前提下,恢复视觉骨干网络的泛化能力。这与传统的微调方法不同,微调通常会导致灾难性遗忘。
关键设计:模型合并的具体方法是计算两个模型(当前模型和预训练模型)的权重平均值,使用一个控制参数λ来控制合并的程度。损失函数包括机器人任务的损失和用于衡量泛化能力的辅助损失。λ的值可以随着训练的进行而动态调整,以平衡任务性能和泛化能力。具体网络结构与OpenVLA保持一致,主要关注视觉骨干网络的逆转过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ReVLA模型在视觉领域外(OOD)的抓取和提升任务中,性能分别比OpenVLA提高了77%和66%。这表明ReVLA成功地克服了灾难性遗忘问题,并显著提升了机器人的视觉泛化能力。论文还提供了详细的消融实验,验证了骨干逆转方法的有效性。
🎯 应用场景
ReVLA的研究成果可应用于各种机器人应用场景,尤其是在需要机器人具备较强环境适应能力的场景中,例如家庭服务机器人、工业自动化机器人和搜救机器人。通过提高机器人在未知环境中的感知能力,可以显著提升其任务完成效率和安全性,加速机器人在现实世界中的部署。
📄 摘要(原文)
Recent progress in large language models and access to large-scale robotic datasets has sparked a paradigm shift in robotics models transforming them into generalists able to adapt to various tasks, scenes, and robot modalities. A large step for the community are open Vision Language Action models which showcase strong performance in a wide variety of tasks. In this work, we study the visual generalization capabilities of three existing robotic foundation models, and propose a corresponding evaluation framework. Our study shows that the existing models do not exhibit robustness to visual out-of-domain scenarios. This is potentially caused by limited variations in the training data and/or catastrophic forgetting, leading to domain limitations in the vision foundation models. We further explore OpenVLA, which uses two pre-trained vision foundation models and is, therefore, expected to generalize to out-of-domain experiments. However, we showcase catastrophic forgetting by DINO-v2 in OpenVLA through its failure to fulfill the task of depth regression. To overcome the aforementioned issue of visual catastrophic forgetting, we propose a gradual backbone reversal approach founded on model merging. This enables OpenVLA -- which requires the adaptation of the visual backbones during initial training -- to regain its visual generalization ability. Regaining this capability enables our ReVLA model to improve over OpenVLA by a factor of 77\% and 66\% for grasping and lifting in visual OOD tasks. Comprehensive evaluations, episode rollouts and model weights are available on the ReVLA Page