MetaVLA: Unified Meta Co-training For Efficient Embodied Adaption

作者: Chen Li, Zhantao Yang, Han Zhang, Fangyi Chen, Chenchen Zhu, Anudeepsekhar Bolimera, Marios Savvides

分类: cs.AI, cs.RO

发布日期: 2025-10-07 (更新: 2026-01-28)

💡 一句话要点

MetaVLA：用于高效具身适应的统一元协同训练框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 元学习 视觉-语言-动作模型 协同训练 上下文感知

📋 核心要点

现有VLA模型泛化性差，需针对特定任务微调，计算成本高昂，难以适应新任务。
MetaVLA提出上下文感知元协同训练，整合多任务微调，利用辅助任务提升泛化能力。
实验表明，MetaVLA在LIBERO基准上显著优于OpenVLA，降低了训练成本。

📝 摘要（中文）

视觉-语言-动作(VLA)模型在具身推理方面展现出潜力，但距离真正的通用智能体仍有差距，它们通常需要针对特定任务进行微调，产生高昂的计算成本，并且对未见任务的泛化能力较差。我们提出了MetaVLA，一个统一的、与骨干网络无关的后训练框架，用于高效且可扩展的对齐。MetaVLA引入了上下文感知元协同训练，它将各种目标任务整合到单个微调阶段，同时利用结构上不同的辅助任务来提高领域内泛化能力。与朴素的多任务SFT不同，MetaVLA集成了一种轻量级的元学习机制（源自注意力神经过程），以实现从不同上下文的快速适应，且架构变化或推理开销极小。在LIBERO基准测试中，使用六个辅助任务的MetaVLA在长时程任务上优于OpenVLA高达8.0%，将训练步骤从240K减少到75K，并将GPU时间减少约76%。这些结果表明，可扩展的、低资源的后训练是可行的，为通用具身智能体铺平了道路。代码即将开源。

🔬 方法详解

问题定义：VLA模型在具身智能任务中表现出潜力，但其泛化能力不足，需要针对特定任务进行微调，导致计算成本高昂，且难以适应未见过的任务。现有方法通常采用多任务微调，但容易出现负迁移现象，且效率较低。

核心思路：MetaVLA的核心思路是利用元学习的思想，通过上下文感知的元协同训练，使模型能够快速适应不同的任务。具体来说，MetaVLA将多个目标任务和辅助任务整合到一个统一的训练框架中，并利用辅助任务来提高模型在目标任务上的泛化能力。同时，MetaVLA采用轻量级的元学习机制，使得模型能够从不同的上下文中快速学习，而无需进行大量的参数调整。

技术框架：MetaVLA的整体框架包括以下几个主要模块：1) 特征提取模块：用于提取输入数据（包括视觉、语言和动作信息）的特征表示。2) 上下文编码模块：用于编码当前任务的上下文信息，例如任务描述、历史交互等。3) 元学习模块：基于注意力神经过程(Attentive Neural Processes)实现，用于学习如何根据上下文信息快速适应不同的任务。4) 动作预测模块：用于根据提取的特征和上下文信息，预测下一步的动作。

关键创新：MetaVLA的关键创新在于提出了上下文感知的元协同训练方法。与传统的多任务学习方法不同，MetaVLA能够根据当前任务的上下文信息，动态地调整不同任务之间的权重，从而避免负迁移现象。此外，MetaVLA采用轻量级的元学习机制，使得模型能够快速适应不同的任务，而无需进行大量的参数调整。

关键设计：MetaVLA的关键设计包括：1) 上下文编码模块的设计，需要能够有效地提取任务的上下文信息。2) 元学习模块的设计，需要能够快速地学习如何适应不同的任务。3) 损失函数的设计，需要能够平衡不同任务之间的学习，并避免负迁移现象。具体来说，MetaVLA采用了基于注意力机制的神经过程来构建元学习模块，并设计了一种基于上下文信息的损失函数，以实现高效的元协同训练。

🖼️ 关键图片

📊 实验亮点

MetaVLA在LIBERO基准测试中取得了显著的性能提升。在长时程任务上，MetaVLA优于OpenVLA高达8.0%。同时，MetaVLA显著降低了训练成本，将训练步骤从240K减少到75K，并将GPU时间减少约76%。这些结果表明，MetaVLA是一种高效且可扩展的具身智能模型训练方法。

🎯 应用场景

MetaVLA可应用于各种具身智能任务，例如机器人导航、物体操作、人机交互等。该研究成果有助于开发更通用、更智能的机器人，使其能够更好地适应不同的环境和任务，具有广泛的应用前景和实际价值。未来，MetaVLA可以进一步扩展到更复杂的具身智能场景，例如家庭服务机器人、自动驾驶等。

📄 摘要（原文）

Vision-Language-Action (VLA) models show promise in embodied reasoning, yet remain far from true generalists-they often require task-specific fine-tuning, incur high compute costs, and generalize poorly to unseen tasks. We propose MetaVLA, a unified, backbone-agnostic post-training framework for efficient and scalable alignment. MetaVLA introduces Context-Aware Meta Co-Training, which consolidates diverse target tasks into a single fine-tuning stage while leveraging structurally diverse auxiliary tasks to improve in-domain generalization. Unlike naive multi-task SFT, MetaVLA integrates a lightweight meta-learning mechanism-derived from Attentive Neural Processes-to enable rapid adaptation from diverse contexts with minimal architectural change or inference overhead. On the LIBERO benchmark, MetaVLA with six auxiliary tasks outperforms OpenVLA by up to 8.0% on long-horizon tasks, reduces training steps from 240K to 75K, and cuts GPU time by ~76%. These results show that scalable, low-resource post-training is achievable-paving the way toward general-purpose embodied agents. Code will be available.

MetaVLA: Unified Meta Co-training For Efficient Embodied Adaption

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理