Robotic Policy Adaptation via Weight-Space Meta-Learning

作者: Christian Bianchi, Siamak Yousefi, Alessio Sampieri, Andrea Roberti, Luca Rigazio, Fabio Galasso, Luca Franco

分类: cs.RO, cs.CV, cs.LG

发布日期: 2026-06-05

💡 一句话要点

提出WIZARD框架以解决机器人任务适应性问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 元学习 任务适应 机器人操作 LoRA参数

📋 核心要点

现有的视觉-语言-动作模型在适应新任务时，通常需要大量的任务特定示范和微调，导致部署成本高且难以扩展。
WIZARD框架通过生成任务特定的LoRA参数，避免了任务特定的微调，仅依赖语言指令和短示范视频进行适应。
实验结果显示，WIZARD在未见数据集上性能提升近2倍，在未见任务上提升近14倍，且在真实环境中表现优于基线方法。

📝 摘要（中文）

视觉-语言-动作（VLA）模型作为一种新兴的机器人操作范式，能够从大量示范和动作标签中训练通用策略。然而，将这些模型适应于新任务通常需要特定任务的示范、动作注释和额外的微调，导致部署成本高且难以扩展。本文提出WIZARD，一个权重空间元学习框架，通过生成特定任务的LoRA参数来避免任务特定的微调。WIZARD仅需语言指令和短示范视频，即可在一次前向传递中预测相应的适应权重，无需目标任务的动作标签或测试时优化。在元训练过程中，WIZARD学习将任务证据直接映射到专家LoRA更新，从而捕捉任务之间在权重空间中的关系。实验结果表明，WIZARD在未见数据集上性能提升近2倍，在未见任务上提升近14倍。

🔬 方法详解

问题定义：本文旨在解决现有视觉-语言-动作模型在适应新任务时需要大量任务特定示范和微调的问题，这使得模型的部署变得昂贵且难以扩展。

核心思路：WIZARD框架通过生成特定任务的LoRA参数，避免了传统方法中的任务特定微调，能够在一次前向传递中直接预测适应权重。

技术框架：WIZARD的整体架构包括元训练阶段和适应阶段。在元训练阶段，模型学习将任务证据映射到LoRA更新；在适应阶段，模型根据输入的语言指令和示范视频生成适应权重。

关键创新：WIZARD的核心创新在于通过权重空间的元学习来实现任务适应，显著减少了对任务特定示范和标签的依赖，这与现有方法的微调策略形成了鲜明对比。

关键设计：WIZARD采用了LoRA参数生成机制，设计了特定的损失函数以优化任务证据与LoRA更新之间的映射关系，确保了模型在不同任务间的有效适应。

🖼️ 关键图片

📊 实验亮点

实验结果表明，WIZARD在未见数据集上的性能提升近2倍，而在未见任务上的提升幅度更是达到近14倍。此外，在真实环境中的实验也显示出WIZARD优于传统的基线方法，证明了其在实际应用中的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、自动化制造和人机交互等场景。通过提高机器人在新任务中的适应能力，WIZARD能够降低部署成本，提升机器人在复杂环境中的操作灵活性，具有重要的实际价值和未来影响。

📄 摘要（原文）

Vision-Language-Action (VLA) models are emerging as a promising paradigm for robotic manipulation, enabling general-purpose policies trained from large corpora of demonstrations and action labels. However, adapting these models to new tasks still typically requires task-specific demonstrations, action annotations, and additional fine-tuning, making deployment costly and difficult to scale. We propose WIZARD, a weight-space meta-learning framework that sidesteps task-specific fine-tuning by generating task-specific LoRA parameters for a frozen VLA policy. Given only a language instruction and a short demonstration video, WIZARD predicts the corresponding adaptation weights in a single forward pass, without target-task action labels or test-time optimization. During meta-training, WIZARD learns to map task evidence directly to expert LoRA updates, capturing relationships between tasks in weight space. Experiments on LIBERO show that WIZARD improves performance by up to ~2x on unseen dataset collections and up to ~14x on unseen tasks. On a Franka Emika Panda, WIZARD consistently improves over a real-domain adapted baseline, showing that generated adapters provide task-level specialization beyond simulation.

Robotic Policy Adaptation via Weight-Space Meta-Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理