See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations

作者: Guangyan Chen, Meiling Wang, Qi Shao, Zichen Zhou, Weixin Mao, Te Cui, Minzhao Zhu, Yinan Deng, Luojie Yang, Zhanqi Zhang, Yi Yang, Hua Chen, Yufeng Yue

分类: cs.RO

发布日期: 2025-12-08

💡 一句话要点

ViVLA：基于单次视频演示的视觉-语言-动作机器人操作模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉-语言-动作模型 单样本学习 模仿学习 视频理解

📋 核心要点

现有VLA模型在机器人控制中表现出潜力，但泛化能力有限，难以适应训练分布之外的任务。
ViVLA模型通过观察一次专家演示视频来学习新任务，提取专家行为中的细粒度操作知识并转移到机器人。
实验表明，ViVLA在未见过的LIBERO任务和真实世界任务中均取得了显著的性能提升。

📝 摘要（中文）

本文提出了一种名为ViVLA的通用机器人操作策略，旨在通过观察一次专家演示视频来高效学习新任务。该方法联合处理专家演示视频和机器人的视觉观察，以预测演示的动作序列和后续机器人动作，从而从专家行为中提取细粒度的操作知识并无缝转移到智能体。为了提升ViVLA的性能，开发了一个可扩展的专家-智能体配对数据生成流程，该流程能够从易于获取的人类视频中合成配对轨迹，并辅以公开数据集中的精选配对。该流程总共生成了892,911个专家-智能体样本用于训练ViVLA。实验结果表明，ViVLA能够仅从一次专家演示视频中学习新的操作技能。在未见过的LIBERO任务上，该方法实现了超过30%的改进，并且在跨具身视频上保持了35%以上的增益。真实世界的实验表明，ViVLA能够有效地从人类视频中学习，并在未见过的任务上实现了超过38%的改进。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）模型在机器人操作任务中泛化能力不足，难以适应新的、未见过的任务。它们通常需要大量的训练数据才能学习到特定的操作技能，而人类仅通过观察一次演示就能快速掌握新技能。因此，如何使机器人能够像人类一样，仅通过一次演示就能学习新的操作技能，是本文要解决的核心问题。

核心思路：本文的核心思路是模仿学习，即让机器人通过观察专家（例如人类）的演示视频来学习操作技能。具体来说，ViVLA模型同时接收专家演示视频和机器人的视觉观察作为输入，然后预测专家演示的动作序列以及机器人应该执行的后续动作。通过这种方式，机器人可以从专家行为中提取细粒度的操作知识，并将其迁移到自身的控制策略中。

技术框架：ViVLA模型的整体框架包含以下几个主要模块：1) 视频编码器：用于提取专家演示视频中的视觉特征。2) 图像编码器：用于提取机器人当前视觉观察的特征。3) 动作预测器：基于视频和图像特征，预测专家演示的动作序列以及机器人应该执行的后续动作。4) 损失函数：用于训练模型，使其能够准确地预测动作序列。整个流程是端到端的，模型直接从原始视频和图像输入预测动作。

关键创新：ViVLA的关键创新在于其能够仅通过一次专家演示视频来学习新的操作技能。这与传统的VLA模型需要大量训练数据形成了鲜明对比。此外，ViVLA还提出了一个可扩展的专家-智能体配对数据生成流程，该流程能够从易于获取的人类视频中合成配对轨迹，从而有效地扩充了训练数据。

关键设计：ViVLA的关键设计包括：1) 使用Transformer网络作为动作预测器，以捕捉动作序列中的长期依赖关系。2) 设计了一种对比学习损失函数，以鼓励模型学习到专家演示和机器人动作之间的对应关系。3) 数据增强策略，例如随机裁剪、旋转和颜色抖动，以提高模型的鲁棒性。

🖼️ 关键图片

📊 实验亮点

ViVLA在未见过的LIBERO任务上实现了超过30%的性能提升，在跨具身视频上保持了35%以上的增益。在真实世界的实验中，ViVLA在未见过的任务上实现了超过38%的改进。这些结果表明，ViVLA能够有效地从一次专家演示视频中学习新的操作技能，并且具有良好的泛化能力和鲁棒性。相较于需要大量训练数据的传统方法，ViVLA的单样本学习能力具有显著优势。

🎯 应用场景

该研究成果可广泛应用于各种机器人操作任务中，例如家庭服务机器人、工业自动化机器人和医疗机器人等。通过观察人类的演示，机器人可以快速学习新的操作技能，从而提高其灵活性和适应性。此外，该方法还可以用于远程操作，例如在危险环境中，人类可以通过远程演示来指导机器人执行任务。未来，该技术有望实现更智能、更自主的机器人系统。

📄 摘要（原文）

Developing robust and general-purpose manipulation policies represents a fundamental objective in robotics research. While Vision-Language-Action (VLA) models have demonstrated promising capabilities for end-to-end robot control, existing approaches still exhibit limited generalization to tasks beyond their training distributions. In contrast, humans possess remarkable proficiency in acquiring novel skills by simply observing others performing them once. Inspired by this capability, we propose ViVLA, a generalist robotic manipulation policy that achieves efficient task learning from a single expert demonstration video at test time. Our approach jointly processes an expert demonstration video alongside the robot's visual observations to predict both the demonstrated action sequences and subsequent robot actions, effectively distilling fine-grained manipulation knowledge from expert behavior and transferring it seamlessly to the agent. To enhance the performance of ViVLA, we develop a scalable expert-agent pair data generation pipeline capable of synthesizing paired trajectories from easily accessible human videos, further augmented by curated pairs from publicly available datasets. This pipeline produces a total of 892,911 expert-agent samples for training ViVLA. Experimental results demonstrate that our ViVLA is able to acquire novel manipulation skills from only a single expert demonstration video at test time. Our approach achieves over 30% improvement on unseen LIBERO tasks and maintains above 35% gains with cross-embodiment videos. Real-world experiments demonstrate effective learning from human videos, yielding more than 38% improvement on unseen tasks.

See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理