ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models

作者: Sombit Dey, Jan-Nico Zaech, Nikolay Nikolov, Luc Van Gool, Danda Pani Paudel

分类: cs.CV, cs.RO

发布日期: 2024-09-23 (更新: 2025-05-20)

备注: Accepted at ICRA-2025, Atlanta

💡 一句话要点

ReVLA：通过模型融合逆转机器人视觉基础模型的视觉领域限制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人视觉 领域泛化 模型融合 灾难性遗忘 视觉语言动作模型

📋 核心要点

现有机器人视觉基础模型在视觉领域外泛化能力不足，主要原因是训练数据多样性有限以及灾难性遗忘。
论文提出一种基于模型融合的渐进式骨干逆转方法，使模型在适应新任务的同时，恢复视觉泛化能力。
实验结果表明，ReVLA模型在视觉领域外任务中，抓取和提升性能显著优于OpenVLA，分别提升了77%和66%。

📝 摘要（中文）

大型语言模型和大规模机器人数据集的出现，推动了机器人模型向通用方向发展，使其能够适应各种任务、场景和机器人形态。开放的视觉-语言-动作模型（VLA）是社区的一大进步，在各种任务中表现出强大的性能。本文研究了三种现有机器人基础模型的视觉泛化能力，并提出了相应的评估框架。研究表明，现有模型在视觉领域外（OOD）场景中缺乏鲁棒性，这可能是由于训练数据变化有限和/或灾难性遗忘造成的。进一步探索了OpenVLA，它使用两个预训练的视觉基础模型，因此有望推广到领域外实验。然而，本文展示了DINO-v2在OpenVLA中深度回归任务上的失败，揭示了灾难性遗忘。为了克服视觉灾难性遗忘问题，本文提出了一种基于模型合并的渐进式骨干逆转方法。这使得OpenVLA（需要在初始训练期间调整视觉骨干）能够重新获得其视觉泛化能力。ReVLA模型在视觉OOD任务中，抓取和提升性能分别比OpenVLA提高了77%和66%。

🔬 方法详解

问题定义：现有机器人视觉基础模型在面对视觉领域外（OOD）数据时，泛化能力显著下降。即使是利用预训练视觉模型（如DINO-v2）的OpenVLA，也存在灾难性遗忘问题，导致在深度回归等任务上表现不佳。这限制了机器人在真实世界复杂环境中的应用。

核心思路：论文的核心思路是通过模型合并，逐步将OpenVLA的视觉骨干网络“逆转”回其原始的、具有更强泛化能力的预训练状态。通过这种方式，模型可以在适应特定机器人任务的同时，保留甚至恢复其在视觉领域的泛化能力，从而克服灾难性遗忘。

技术框架：ReVLA的整体框架基于OpenVLA，但增加了骨干逆转模块。训练过程分为两个阶段：首先，按照OpenVLA的方式训练模型，使其适应机器人任务。然后，使用模型合并技术，逐步将视觉骨干网络（例如DINO-v2）的权重向其原始预训练权重方向调整。这个过程可以迭代进行，直到模型在领域外数据上表现出足够的泛化能力。

关键创新：关键创新在于提出了渐进式骨干逆转方法，利用模型合并技术，在不完全放弃已学习的机器人任务知识的前提下，恢复视觉骨干网络的泛化能力。这与传统的微调方法不同，微调通常会导致灾难性遗忘。

关键设计：模型合并的具体方法是计算两个模型（当前模型和预训练模型）的权重平均值，使用一个控制参数λ来控制合并的程度。损失函数包括机器人任务的损失和用于衡量泛化能力的辅助损失。λ的值可以随着训练的进行而动态调整，以平衡任务性能和泛化能力。具体网络结构与OpenVLA保持一致，主要关注视觉骨干网络的逆转过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ReVLA模型在视觉领域外（OOD）的抓取和提升任务中，性能分别比OpenVLA提高了77%和66%。这表明ReVLA成功地克服了灾难性遗忘问题，并显著提升了机器人的视觉泛化能力。论文还提供了详细的消融实验，验证了骨干逆转方法的有效性。

🎯 应用场景

ReVLA的研究成果可应用于各种机器人应用场景，尤其是在需要机器人具备较强环境适应能力的场景中，例如家庭服务机器人、工业自动化机器人和搜救机器人。通过提高机器人在未知环境中的感知能力，可以显著提升其任务完成效率和安全性，加速机器人在现实世界中的部署。

📄 摘要（原文）

Recent progress in large language models and access to large-scale robotic datasets has sparked a paradigm shift in robotics models transforming them into generalists able to adapt to various tasks, scenes, and robot modalities. A large step for the community are open Vision Language Action models which showcase strong performance in a wide variety of tasks. In this work, we study the visual generalization capabilities of three existing robotic foundation models, and propose a corresponding evaluation framework. Our study shows that the existing models do not exhibit robustness to visual out-of-domain scenarios. This is potentially caused by limited variations in the training data and/or catastrophic forgetting, leading to domain limitations in the vision foundation models. We further explore OpenVLA, which uses two pre-trained vision foundation models and is, therefore, expected to generalize to out-of-domain experiments. However, we showcase catastrophic forgetting by DINO-v2 in OpenVLA through its failure to fulfill the task of depth regression. To overcome the aforementioned issue of visual catastrophic forgetting, we propose a gradual backbone reversal approach founded on model merging. This enables OpenVLA -- which requires the adaptation of the visual backbones during initial training -- to regain its visual generalization ability. Regaining this capability enables our ReVLA model to improve over OpenVLA by a factor of 77\% and 66\% for grasping and lifting in visual OOD tasks. Comprehensive evaluations, episode rollouts and model weights are available on the ReVLA Page

ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理