Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation?

作者: Zhongru Zhang, Chenghan Yang, Qingzhou Lu, Yanjiang Guo, Jianke Zhang, Yucheng Hu, Jianyu Chen

分类: cs.RO

发布日期: 2026-04-07

💡 一句话要点

Veo-Act：探索前沿视频模型在通用机器人操作中的潜力

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视频生成模型 通用机器人学习 逆动力学模型 视觉-语言-动作策略 分层控制 Veo-3 指令跟随

📋 核心要点

现有机器人操作方法泛化性不足，依赖大量人工标注或专家数据，限制了其应用范围。
论文提出Veo-Act框架，利用视频生成模型Veo-3进行高层运动规划，结合视觉-语言-动作策略进行低层控制。
实验表明，Veo-Act显著提高了机器人指令跟随性能，验证了视频模型在通用机器人学习中的潜力。

📝 摘要（中文）

本文研究了先进的视频生成模型（如Veo-3）在通用机器人操作中的应用潜力。首先，提出一种零样本方法，利用Veo-3从当前机器人观测预测未来图像序列，并使用逆动力学模型（IDM）恢复相应的机器人动作。IDM仅在随机数据上训练，无需人工监督或专家演示。核心思想是，如果视频模型能生成物理上合理的未来运动，IDM就能将这些视觉轨迹转化为可执行的机器人动作。在仿真和真实世界中使用高维灵巧手评估了“Veo-3+IDM”方法。结果表明，由于前沿视频模型的强大泛化能力，Veo-3+IDM可以持续生成近似正确的任务级轨迹。然而，其低级控制精度不足以可靠地解决大多数任务。因此，开发了一种分层框架Veo-Act，使用Veo-3作为高层运动规划器，VLA策略作为低层执行器，显著提高了视觉-语言-动作策略的指令跟随性能。总体而言，结果表明，随着视频生成模型的不断改进，视频模型可以成为通用机器人学习的重要组成部分。

🔬 方法详解

问题定义：现有机器人操作方法在泛化性方面存在挑战，通常需要大量特定任务的训练数据或专家演示。这使得机器人难以适应新的环境和任务，限制了其在实际场景中的应用。此外，低级控制精度不足也是一个关键问题，即使在高层规划正确的情况下，机器人也可能无法精确执行动作。

核心思路：论文的核心思路是利用先进的视频生成模型（如Veo-3）强大的物理动态理解能力，将其作为高层运动规划器。视频模型能够预测未来图像序列，从而为机器人提供一个视觉上的目标轨迹。然后，通过逆动力学模型或视觉-语言-动作策略将这些视觉轨迹转化为可执行的机器人动作。这种方法的核心优势在于，视频模型可以在大量无监督视频数据上进行预训练，从而获得更好的泛化能力。

技术框架：Veo-Act框架包含两个主要模块：高层运动规划器和低层执行器。高层运动规划器使用Veo-3视频生成模型，根据当前机器人观测预测未来图像序列。低层执行器使用视觉-语言-动作（VLA）策略，将Veo-3生成的视觉轨迹转化为具体的机器人动作。在初始的“Veo-3+IDM”方法中，低层执行器使用逆动力学模型（IDM）进行动作恢复。

关键创新：论文的关键创新在于将先进的视频生成模型应用于机器人操作任务，并提出了一种分层框架Veo-Act。这种框架充分利用了视频模型强大的泛化能力和物理动态理解能力，从而提高了机器人在新环境和新任务中的适应性。此外，使用VLA策略作为低层执行器，可以更好地处理复杂的指令跟随任务。

关键设计：IDM的训练仅使用随机数据，避免了人工标注或专家演示的需求。Veo-3作为高层规划器，生成未来图像序列，为低层执行器提供视觉目标。VLA策略的具体网络结构和训练方式未知，但其作用是将视觉目标转化为具体的机器人动作。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Veo-3+IDM方法能够生成近似正确的任务级轨迹，但低级控制精度不足。Veo-Act框架通过结合Veo-3和VLA策略，显著提高了指令跟随性能。具体的性能数据和提升幅度未知，但论文强调了Veo-Act在提高机器人操作泛化性方面的潜力。

🎯 应用场景

该研究成果可应用于各种需要通用机器人操作的场景，如家庭服务机器人、工业自动化、医疗辅助机器人等。通过利用视频模型强大的泛化能力，机器人可以更好地适应新的环境和任务，从而提高其在实际应用中的效率和可靠性。未来，随着视频生成模型的不断改进，机器人操作的智能化水平将得到进一步提升。

📄 摘要（原文）

Video generation models have advanced rapidly and are beginning to show a strong understanding of physical dynamics. In this paper, we investigate how far an advanced video generation model such as Veo-3 can support generalizable robotic manipulation. We first study a zero-shot approach in which Veo-3 predicts future image sequences from current robot observations, while an inverse dynamics model IDM recovers the corresponding robot actions. The IDM is trained solely on random-play data, requiring neither human supervision nor expert demonstrations. The key intuition is that, if a video model can generate physically plausible future motions in image space, an IDM can translate those visual trajectories into executable robot actions. We evaluate this "Veo-3+IDM" approach in both simulation and the real world using a high-dimensional dexterous hand. We find that, owing to the strong generalization capability of frontier video models, Veo-3+IDM can consistently generate approximately correct task-level trajectories. However, its low-level control accuracy remains insufficient to solve most tasks reliably. Motivated by this observation, we develop a hierarchical framework, Veo-Act, which uses Veo-3 as a high-level motion planner and a VLA policy as the low-level executor, significantly improving the instruction-following performance of a state-of-the-art vision-language-action policy. Overall, our results suggest that, as video generation models continue to improve, video models can be a valuable component for generalizable robot learning.

Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理