Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation?

📄 arXiv: 2604.04502 📥 PDF

作者: Zhongru Zhang, Chenghan Yang, Qingzhou Lu, Yanjiang Guo, Jianke Zhang, Yucheng Hu, Jianyu Chen

分类: cs.RO

发布日期: 2026-04-07


💡 一句话要点

Veo-Act:探索前沿视频模型在通用机器人操作中的潜力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视频生成模型 通用机器人学习 逆动力学模型 视觉-语言-动作策略 分层控制 Veo-3 指令跟随

📋 核心要点

  1. 现有机器人操作方法泛化性不足,依赖大量人工标注或专家数据,限制了其应用范围。
  2. 论文提出Veo-Act框架,利用视频生成模型Veo-3进行高层运动规划,结合视觉-语言-动作策略进行低层控制。
  3. 实验表明,Veo-Act显著提高了机器人指令跟随性能,验证了视频模型在通用机器人学习中的潜力。

📝 摘要(中文)

本文研究了先进的视频生成模型(如Veo-3)在通用机器人操作中的应用潜力。首先,提出一种零样本方法,利用Veo-3从当前机器人观测预测未来图像序列,并使用逆动力学模型(IDM)恢复相应的机器人动作。IDM仅在随机数据上训练,无需人工监督或专家演示。核心思想是,如果视频模型能生成物理上合理的未来运动,IDM就能将这些视觉轨迹转化为可执行的机器人动作。在仿真和真实世界中使用高维灵巧手评估了“Veo-3+IDM”方法。结果表明,由于前沿视频模型的强大泛化能力,Veo-3+IDM可以持续生成近似正确的任务级轨迹。然而,其低级控制精度不足以可靠地解决大多数任务。因此,开发了一种分层框架Veo-Act,使用Veo-3作为高层运动规划器,VLA策略作为低层执行器,显著提高了视觉-语言-动作策略的指令跟随性能。总体而言,结果表明,随着视频生成模型的不断改进,视频模型可以成为通用机器人学习的重要组成部分。

🔬 方法详解

问题定义:现有机器人操作方法在泛化性方面存在挑战,通常需要大量特定任务的训练数据或专家演示。这使得机器人难以适应新的环境和任务,限制了其在实际场景中的应用。此外,低级控制精度不足也是一个关键问题,即使在高层规划正确的情况下,机器人也可能无法精确执行动作。

核心思路:论文的核心思路是利用先进的视频生成模型(如Veo-3)强大的物理动态理解能力,将其作为高层运动规划器。视频模型能够预测未来图像序列,从而为机器人提供一个视觉上的目标轨迹。然后,通过逆动力学模型或视觉-语言-动作策略将这些视觉轨迹转化为可执行的机器人动作。这种方法的核心优势在于,视频模型可以在大量无监督视频数据上进行预训练,从而获得更好的泛化能力。

技术框架:Veo-Act框架包含两个主要模块:高层运动规划器和低层执行器。高层运动规划器使用Veo-3视频生成模型,根据当前机器人观测预测未来图像序列。低层执行器使用视觉-语言-动作(VLA)策略,将Veo-3生成的视觉轨迹转化为具体的机器人动作。在初始的“Veo-3+IDM”方法中,低层执行器使用逆动力学模型(IDM)进行动作恢复。

关键创新:论文的关键创新在于将先进的视频生成模型应用于机器人操作任务,并提出了一种分层框架Veo-Act。这种框架充分利用了视频模型强大的泛化能力和物理动态理解能力,从而提高了机器人在新环境和新任务中的适应性。此外,使用VLA策略作为低层执行器,可以更好地处理复杂的指令跟随任务。

关键设计:IDM的训练仅使用随机数据,避免了人工标注或专家演示的需求。Veo-3作为高层规划器,生成未来图像序列,为低层执行器提供视觉目标。VLA策略的具体网络结构和训练方式未知,但其作用是将视觉目标转化为具体的机器人动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Veo-3+IDM方法能够生成近似正确的任务级轨迹,但低级控制精度不足。Veo-Act框架通过结合Veo-3和VLA策略,显著提高了指令跟随性能。具体的性能数据和提升幅度未知,但论文强调了Veo-Act在提高机器人操作泛化性方面的潜力。

🎯 应用场景

该研究成果可应用于各种需要通用机器人操作的场景,如家庭服务机器人、工业自动化、医疗辅助机器人等。通过利用视频模型强大的泛化能力,机器人可以更好地适应新的环境和任务,从而提高其在实际应用中的效率和可靠性。未来,随着视频生成模型的不断改进,机器人操作的智能化水平将得到进一步提升。

📄 摘要(原文)

Video generation models have advanced rapidly and are beginning to show a strong understanding of physical dynamics. In this paper, we investigate how far an advanced video generation model such as Veo-3 can support generalizable robotic manipulation. We first study a zero-shot approach in which Veo-3 predicts future image sequences from current robot observations, while an inverse dynamics model IDM recovers the corresponding robot actions. The IDM is trained solely on random-play data, requiring neither human supervision nor expert demonstrations. The key intuition is that, if a video model can generate physically plausible future motions in image space, an IDM can translate those visual trajectories into executable robot actions. We evaluate this "Veo-3+IDM" approach in both simulation and the real world using a high-dimensional dexterous hand. We find that, owing to the strong generalization capability of frontier video models, Veo-3+IDM can consistently generate approximately correct task-level trajectories. However, its low-level control accuracy remains insufficient to solve most tasks reliably. Motivated by this observation, we develop a hierarchical framework, Veo-Act, which uses Veo-3 as a high-level motion planner and a VLA policy as the low-level executor, significantly improving the instruction-following performance of a state-of-the-art vision-language-action policy. Overall, our results suggest that, as video generation models continue to improve, video models can be a valuable component for generalizable robot learning.