DreamPlan: Efficient Reinforcement Fine-Tuning of Vision-Language Planners via Video World Models

📄 arXiv: 2603.16860v1 📥 PDF

作者: Emily Yue-Ting Jia, Weiduo Yuan, Tianheng Shi, Vitor Guizilini, Jiageng Mao, Yue Wang

分类: cs.RO

发布日期: 2026-03-17


💡 一句话要点

DreamPlan:通过视频世界模型高效强化微调视觉-语言规划器

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉-语言模型 强化学习 视频世界模型 机器人操作 物理推理

📋 核心要点

  1. 现有VLM规划器缺乏对物理世界的理解,导致在复杂操作任务中泛化能力差,真实环境部署成功率低。
  2. DreamPlan利用VLM收集交互数据训练视频世界模型,然后在该模型中通过强化学习微调VLM规划器。
  3. 实验表明,DreamPlan无需大量真实数据即可显著提高操作成功率,有效弥合语义推理和物理基础之间的差距。

📝 摘要(中文)

机器人操作需要复杂的常识推理,而大规模视觉-语言模型(VLMs)天然具备这种能力。虽然VLMs作为零样本规划器展现出潜力,但它们缺乏对物理世界的理解,这通常会导致累积误差,并在复杂的真实环境中部署时成功率较低,尤其是在可变形物体操作等具有挑战性的任务中。虽然强化学习(RL)可以使这些规划器适应特定的任务动态,但通过真实世界的交互直接微调VLMs的成本过高、不安全且样本效率低下。为了克服这个瓶颈,我们引入了DreamPlan,这是一个通过视频世界模型对VLM规划器进行强化微调的新框架。DreamPlan首先利用零样本VLM收集探索性交互数据,而不是依赖于昂贵的物理rollout。我们证明,这种次优数据足以训练一个动作条件视频生成模型,该模型隐式地捕捉了复杂的真实世界物理。随后,VLM规划器完全在这个视频世界模型的“想象”中,使用Odds Ratio Policy Optimization (ORPO)进行微调。通过利用这些虚拟rollout,物理和任务特定的知识被有效地注入到VLM中。我们的结果表明,DreamPlan弥合了语义推理和物理基础之间的差距,显著提高了操作成功率,而不需要大规模的真实世界数据收集。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型(VLM)在机器人操作任务中,由于缺乏对物理世界的理解而导致的泛化能力差和真实环境部署成功率低的问题。现有方法直接在真实环境中进行强化学习微调VLM,成本高昂、不安全且样本效率低下。

核心思路:论文的核心思路是利用VLM的零样本能力收集初步的交互数据,然后用这些数据训练一个视频世界模型,该模型能够模拟真实世界的物理规律。之后,在视频世界模型中进行强化学习微调VLM规划器,从而将物理和任务相关的知识注入到VLM中,提高其在真实环境中的操作能力。

技术框架:DreamPlan框架包含两个主要阶段:1) 数据收集和视频世界模型训练阶段:利用零样本VLM在真实环境中进行探索性交互,收集交互数据(例如,图像序列和动作序列)。然后,使用这些数据训练一个动作条件视频生成模型,该模型能够根据当前状态和动作预测未来的状态。2) 强化学习微调阶段:使用Odds Ratio Policy Optimization (ORPO)算法,在视频世界模型中对VLM规划器进行微调。VLM规划器根据当前状态生成动作,视频世界模型模拟执行该动作后的状态变化,强化学习算法根据模拟结果调整VLM规划器的策略。

关键创新:DreamPlan的关键创新在于利用视频世界模型作为VLM规划器的强化学习环境,避免了直接在真实环境中进行昂贵的交互。这种方法能够有效地将物理和任务相关的知识注入到VLM中,提高其在真实环境中的操作能力。此外,使用ORPO算法进行策略优化,提高了样本效率和稳定性。

关键设计:视频世界模型采用动作条件视频生成模型,例如变分自编码器(VAE)或生成对抗网络(GAN),其输入为当前状态(图像)和动作,输出为下一状态(图像)。损失函数通常包括重构损失(衡量生成图像与真实图像的相似度)和对抗损失(用于提高生成图像的真实感)。ORPO算法使用优势函数来指导策略更新,并引入了Odds Ratio来控制策略更新的幅度,防止策略崩溃。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DreamPlan在可变形物体操作等复杂任务中显著提高了操作成功率。例如,在某项实验中,DreamPlan将操作成功率从基线的20%提高到60%,证明了其在弥合语义推理和物理基础之间差距方面的有效性。该方法在样本效率方面也表现出色,仅需少量真实世界数据即可训练出有效的视频世界模型。

🎯 应用场景

DreamPlan可应用于各种机器人操作任务,尤其是在需要复杂常识推理和物理交互的场景中,如家庭服务机器人、工业自动化、医疗机器人等。该方法降低了机器人学习的成本和风险,加速了机器人智能的发展和应用,并为其他需要物理世界交互的AI系统提供了借鉴。

📄 摘要(原文)

Robotic manipulation requires sophisticated commonsense reasoning, a capability naturally possessed by large-scale Vision-Language Models (VLMs). While VLMs show promise as zero-shot planners, their lack of grounded physical understanding often leads to compounding errors and low success rates when deployed in complex real-world environments, particularly for challenging tasks like deformable object manipulation. Although Reinforcement Learning (RL) can adapt these planners to specific task dynamics, directly fine-tuning VLMs via real-world interaction is prohibitively expensive, unsafe, and sample-inefficient. To overcome this bottleneck, we introduce DreamPlan, a novel framework for the reinforcement fine-tuning of VLM planners via video world models. Instead of relying on costly physical rollouts, DreamPlan first leverages the zero-shot VLM to collect exploratory interaction data. We demonstrate that this sub-optimal data is sufficient to train an action-conditioned video generation model, which implicitly captures complex real-world physics. Subsequently, the VLM planner is fine-tuned entirely within the "imagination" of this video world model using Odds Ratio Policy Optimization (ORPO). By utilizing these virtual rollouts, physical and task-specific knowledge is efficiently injected into the VLM. Our results indicate that DreamPlan bridges the gap between semantic reasoning and physical grounding, significantly improving manipulation success rates without the need for large-scale real-world data collection. Our project page is https://psi-lab.ai/DreamPlan/.