Robotic Policy Adaptation via Weight-Space Meta-Learning

📄 arXiv: 2606.07217v1 📥 PDF

作者: Christian Bianchi, Siamak Yousefi, Alessio Sampieri, Andrea Roberti, Luca Rigazio, Fabio Galasso, Luca Franco

分类: cs.RO, cs.CV, cs.LG

发布日期: 2026-06-05


💡 一句话要点

提出WIZARD框架以解决机器人任务适应性问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 元学习 任务适应 机器人操作 LoRA参数

📋 核心要点

  1. 现有的视觉-语言-动作模型在适应新任务时,通常需要大量的任务特定示范和微调,导致部署成本高且难以扩展。
  2. WIZARD框架通过生成任务特定的LoRA参数,避免了任务特定的微调,仅依赖语言指令和短示范视频进行适应。
  3. 实验结果显示,WIZARD在未见数据集上性能提升近2倍,在未见任务上提升近14倍,且在真实环境中表现优于基线方法。

📝 摘要(中文)

视觉-语言-动作(VLA)模型作为一种新兴的机器人操作范式,能够从大量示范和动作标签中训练通用策略。然而,将这些模型适应于新任务通常需要特定任务的示范、动作注释和额外的微调,导致部署成本高且难以扩展。本文提出WIZARD,一个权重空间元学习框架,通过生成特定任务的LoRA参数来避免任务特定的微调。WIZARD仅需语言指令和短示范视频,即可在一次前向传递中预测相应的适应权重,无需目标任务的动作标签或测试时优化。在元训练过程中,WIZARD学习将任务证据直接映射到专家LoRA更新,从而捕捉任务之间在权重空间中的关系。实验结果表明,WIZARD在未见数据集上性能提升近2倍,在未见任务上提升近14倍。

🔬 方法详解

问题定义:本文旨在解决现有视觉-语言-动作模型在适应新任务时需要大量任务特定示范和微调的问题,这使得模型的部署变得昂贵且难以扩展。

核心思路:WIZARD框架通过生成特定任务的LoRA参数,避免了传统方法中的任务特定微调,能够在一次前向传递中直接预测适应权重。

技术框架:WIZARD的整体架构包括元训练阶段和适应阶段。在元训练阶段,模型学习将任务证据映射到LoRA更新;在适应阶段,模型根据输入的语言指令和示范视频生成适应权重。

关键创新:WIZARD的核心创新在于通过权重空间的元学习来实现任务适应,显著减少了对任务特定示范和标签的依赖,这与现有方法的微调策略形成了鲜明对比。

关键设计:WIZARD采用了LoRA参数生成机制,设计了特定的损失函数以优化任务证据与LoRA更新之间的映射关系,确保了模型在不同任务间的有效适应。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,WIZARD在未见数据集上的性能提升近2倍,而在未见任务上的提升幅度更是达到近14倍。此外,在真实环境中的实验也显示出WIZARD优于传统的基线方法,证明了其在实际应用中的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、自动化制造和人机交互等场景。通过提高机器人在新任务中的适应能力,WIZARD能够降低部署成本,提升机器人在复杂环境中的操作灵活性,具有重要的实际价值和未来影响。

📄 摘要(原文)

Vision-Language-Action (VLA) models are emerging as a promising paradigm for robotic manipulation, enabling general-purpose policies trained from large corpora of demonstrations and action labels. However, adapting these models to new tasks still typically requires task-specific demonstrations, action annotations, and additional fine-tuning, making deployment costly and difficult to scale. We propose WIZARD, a weight-space meta-learning framework that sidesteps task-specific fine-tuning by generating task-specific LoRA parameters for a frozen VLA policy. Given only a language instruction and a short demonstration video, WIZARD predicts the corresponding adaptation weights in a single forward pass, without target-task action labels or test-time optimization. During meta-training, WIZARD learns to map task evidence directly to expert LoRA updates, capturing relationships between tasks in weight space. Experiments on LIBERO show that WIZARD improves performance by up to ~2x on unseen dataset collections and up to ~14x on unseen tasks. On a Franka Emika Panda, WIZARD consistently improves over a real-domain adapted baseline, showing that generated adapters provide task-level specialization beyond simulation.