VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

作者: Yixiao Wang, Mingxiao Huo, Zhixuan Liang, Yushi Du, Lingfeng Sun, Haotian Lin, Jinghuan Shang, Chensheng Peng, Mohit Bansal, Mingyu Ding, Masayoshi Tomizuka

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-10-06

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出VER，通过专家蒸馏和动态路由实现机器人学习的视觉知识迁移。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人学习 视觉基础模型 知识蒸馏 动态路由 Transformer 专家系统 参数高效微调

📋 核心要点

现有视觉基础模型在特定领域表现出色，但在跨任务泛化性方面存在局限性，直接蒸馏多个VFM会造成任务特征选择不灵活。
VER通过预训练将多个VFM蒸馏成专家库，并使用轻量级路由网络动态选择任务相关的专家，避免了完全重新训练的成本。
实验结果表明，VER在17个机器人任务上取得了SOTA性能，并能有效减少任务无关区域的干扰，聚焦关键区域。

📝 摘要（中文）

本文提出了一种用于机器人学习的视觉专家Transformer（VER）。VER通过蒸馏多个视觉基础模型（VFMs）到一个视觉专家库中，从而利用丰富的视觉表征来提升机器人学习。为了适应不同的机器人任务，VER仅需微调一个轻量级的路由网络（参数量小于0.4%），即可从预训练的专家库中动态选择任务相关的专家。此外，本文还引入了带有课程Top-K退火的Patchwise专家路由，以提高动态专家选择的灵活性和精确性。VER还支持参数高效的微调，从而实现专家利用率的可扩展性和自适应的机器人领域知识集成。在17个不同的机器人任务和多个策略头上的实验表明，VER实现了最先进的性能。实验结果表明，VER减少了任务无关区域（例如背景）中的大范数异常值，并集中于任务关键区域。

🔬 方法详解

问题定义：现有方法在将多个视觉基础模型（VFMs）应用于机器人学习时，存在两个主要问题。一是单个VFM通常只擅长特定领域，限制了其在不同任务中的泛化能力。二是直接将多个VFM蒸馏成统一的策略表示，会导致任务特定的特征选择不够灵活，并且需要昂贵的完全重新训练才能整合机器人领域的知识。

核心思路：VER的核心思路是构建一个视觉专家库，其中每个专家都从不同的VFM中学习到特定的视觉知识。然后，通过一个轻量级的路由网络，根据当前的任务动态地选择合适的专家组合。这种方法既能利用多个VFM的优势，又能避免完全重新训练的成本，同时还能实现任务特定的特征选择。

技术框架：VER的整体框架包括三个主要阶段：1) 预训练阶段：将多个VFM蒸馏到一个视觉专家库中。每个专家都是一个Transformer模块，负责处理图像的不同部分或学习不同的视觉特征。2) 路由网络训练阶段：训练一个轻量级的路由网络，用于根据当前的任务动态地选择合适的专家组合。路由网络接收图像特征作为输入，输出每个专家的权重。3) 微调阶段：使用机器人领域的数据对路由网络进行微调，以适应特定的机器人任务。

关键创新：VER的关键创新在于动态专家路由机制和Patchwise专家路由与课程Top-K退火策略。动态专家路由允许模型根据任务需求自适应地选择合适的专家，从而提高了模型的泛化能力。Patchwise专家路由允许模型在图像的不同区域使用不同的专家，从而提高了模型的灵活性。课程Top-K退火策略则在训练初期鼓励探索更多的专家组合，在训练后期则专注于选择最相关的专家，从而提高了模型的训练效率和性能。

关键设计：VER使用Transformer作为其主要架构，并采用交叉熵损失函数来训练路由网络。Patchwise专家路由将图像划分为多个patch，并为每个patch分配不同的专家组合。课程Top-K退火策略通过逐渐减小Top-K的值，来控制专家选择的范围。路由网络的参数量被控制在总参数量的0.4%以下，以保证其轻量级和高效性。

📊 实验亮点

VER在17个不同的机器人任务上取得了最先进的性能，显著优于现有的方法。例如，在某些任务上，VER的性能提升超过了10%。实验结果还表明，VER能够有效地减少任务无关区域的干扰，并集中于任务关键区域，从而提高了模型的鲁棒性和可靠性。

🎯 应用场景

VER具有广泛的应用前景，可应用于各种机器人学习任务，例如物体抓取、导航、操作等。通过利用预训练的视觉知识，VER可以显著提高机器人的学习效率和泛化能力。此外，VER还可以应用于其他需要视觉知识迁移的领域，例如自动驾驶、智能监控等。

📄 摘要（原文）

Pretrained vision foundation models (VFMs) advance robotic learning via rich visual representations, yet individual VFMs typically excel only in specific domains, limiting generality across tasks. Distilling multiple VFMs into a unified representation for policy can mitigate this limitation but often yields inflexible task-specific feature selection and requires costly full re-training to incorporate robot-domain knowledge. We propose VER, a Vision Expert transformer for Robot learning. During pretraining, VER distills multiple VFMs into a vision expert library. It then fine-tunes only a lightweight routing network (fewer than 0.4% of parameters) to dynamically select task-relevant experts from the pretrained library for downstream robot tasks. We further introduce Patchwise Expert Routing with Curriculum Top-K Annealing to improve both flexibility and precision of dynamic expert selection. Moreover, VER supports parameter-efficient finetuning for scalable expert utilization and adaptive robot-domain knowledge integration. Across 17 diverse robotic tasks and multiple policy heads, VER achieves state-of-the-art performance. We find that VER reduces large-norm outliers in task-irrelevant regions (e.g., background) and concentrates on task-critical regions. Visualizations and codes can be found in https://yixiaowang7.github.io/ver_page/.

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册