ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

📄 arXiv: 2604.08168v1 📥 PDF

作者: Jindi Lv, Hao Li, Jie Li, Yifei Nie, Fankun Kong, Yang Wang, Xiaofeng Wang, Zheng Zhu, Chaojun Ni, Qiuping Deng, Hengtao Li, Jiancheng Lv, Guan Huang

分类: cs.RO, cs.AI

发布日期: 2026-04-09


💡 一句话要点

ViVa:一种用于机器人强化学习的视频生成价值模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人强化学习 价值函数 视频生成模型 时空建模 具身智能

📋 核心要点

  1. 现有基于视觉语言模型的价值函数难以捕捉时间动态,导致长时程任务中价值估计不准确。
  2. ViVa利用预训练的视频生成器进行价值估计,通过预测未来状态将价值与具身动态联系起来。
  3. 实验表明,ViVa在真实机器人任务中显著提升了性能,并能泛化到新物体。

📝 摘要(中文)

视觉-语言-动作(VLA)模型通过大规模预训练推动了机器人操作的发展,但由于部分可观测性和延迟反馈,实际部署仍然具有挑战性。强化学习通过价值函数解决这个问题,价值函数评估任务进度并指导策略改进。然而,现有的基于视觉-语言模型(VLM)的价值模型难以捕捉时间动态,从而削弱了长时程任务中可靠的价值估计。在本文中,我们提出了ViVa,一种视频生成价值模型,它将预训练的视频生成器重新用于价值估计。ViVa以当前观测和机器人本体感受作为输入,联合预测未来的本体感受和当前状态的标量值。通过利用预训练视频生成器的时空先验,我们的方法将价值估计建立在预期的具身动态之上,超越了静态快照,将价值与远见内在联系起来。集成到RECAP中,ViVa在真实世界的盒子组装方面取得了显著改进。对所有三个任务的定性分析证实,ViVa产生了更可靠的价值信号,准确地反映了任务进度。通过利用来自视频语料库的时空先验,ViVa还可以推广到新对象,突出了视频生成模型在价值估计方面的潜力。

🔬 方法详解

问题定义:现有基于视觉语言模型的机器人强化学习方法,在处理部分可观测性和延迟反馈问题时,难以准确评估长期任务的价值函数。这些方法通常依赖于静态的视觉输入,忽略了任务执行过程中的时间动态信息,导致价值估计不准确,影响策略学习的效率和效果。

核心思路:ViVa的核心思路是将价值估计问题转化为一个视频生成问题。通过利用预训练视频生成器的时空先验知识,模型能够预测未来状态,从而更准确地评估当前状态的价值。这种方法将价值估计与具身动态联系起来,使得模型能够更好地理解任务的长期目标和执行过程。

技术框架:ViVa的整体框架包括一个预训练的视频生成器和一个价值估计模块。模型以当前观测和机器人本体感受作为输入,首先通过视频生成器预测未来的本体感受序列。然后,价值估计模块根据预测的未来状态序列,输出当前状态的标量价值。该价值用于指导强化学习策略的改进。

关键创新:ViVa的关键创新在于将视频生成模型应用于价值估计。与传统的基于视觉语言模型的价值函数相比,ViVa能够利用视频生成器的时空先验知识,更好地捕捉任务执行过程中的时间动态信息。这使得ViVa能够更准确地评估长期任务的价值函数,从而提高强化学习的效率和效果。

关键设计:ViVa的关键设计包括:1) 使用预训练的视频生成器,以利用其强大的时空建模能力;2) 将价值估计模块与视频生成器集成,实现端到端的训练;3) 使用合适的损失函数,例如均方误差损失,来训练价值估计模块,使其能够准确预测状态的价值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ViVa在真实世界的盒子组装任务中取得了显著改进,相较于基线方法,性能提升明显。定性分析表明,ViVa能够产生更可靠的价值信号,准确反映任务进度。此外,ViVa还展现出良好的泛化能力,能够应用于新物体,证明了视频生成模型在价值估计方面的潜力。

🎯 应用场景

ViVa具有广泛的应用前景,可应用于各种需要长期规划和决策的机器人任务,例如复杂装配、导航、操作等。该研究成果有助于提升机器人在复杂环境中的自主性和适应性,加速机器人技术在工业、服务等领域的应用。未来,ViVa有望与其他先进技术结合,例如模仿学习、元学习等,进一步提升机器人的智能水平。

📄 摘要(原文)

Vision-language-action (VLA) models have advanced robot manipulation through large-scale pretraining, but real-world deployment remains challenging due to partial observability and delayed feedback. Reinforcement learning addresses this via value functions, which assess task progress and guide policy improvement. However, existing value models built on vision-language models (VLMs) struggle to capture temporal dynamics, undermining reliable value estimation in long-horizon tasks. In this paper, we propose ViVa, a video-generative value model that repurposes a pretrained video generator for value estimation. Taking the current observation and robot proprioception as input, ViVa jointly predicts future proprioception and a scalar value for the current state. By leveraging the spatiotemporal priors of a pretrained video generator, our approach grounds value estimation in anticipated embodiment dynamics, moving beyond static snapshots to intrinsically couple value with foresight. Integrated into RECAP, ViVa delivers substantial improvements on real-world box assembly. Qualitative analysis across all three tasks confirms that ViVa produces more reliable value signals, accurately reflecting task progress. By leveraging spatiotemporal priors from video corpora, ViVa also generalizes to novel objects, highlighting the promise of video-generative models for value estimation.