CreFlow: Corrective Reflow for Sparse-Reward Embodied Video Diffusion RL
作者: Zhenyang Ni, Yijiang Li, Ruochen Jiao, Simon Sinong Zhan, Sipeng Chen, Zhenfei Yin, Minshuo Chen, Philip Torr, Zhaoran Wang, Qi Zhu
分类: cs.CV
发布日期: 2026-05-14
💡 一句话要点
CreFlow:用于稀疏奖励具身视频扩散强化学习的修正性重流方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 具身智能 视频生成 强化学习 奖励模型 线性时序逻辑
📋 核心要点
- 现有视频生成模型在具身操作任务中,难以保证生成视频满足物理约束和任务逻辑。
- CreFlow通过组合约束奖励模型和在线强化学习框架,对视频生成模型进行后训练,提升其在具身操作任务中的性能。
- 实验结果表明,CreFlow在奖励判断上与人类和模拟器标签更对齐,并在多个双手操作任务中显著提升了执行成功率。
📝 摘要(中文)
在异构数据上使用似然代理目标训练的视频生成模型,能够生成视觉上逼真的视频,但可能违反具身操作中的物理约束。虽然强化学习后训练为调整视频生成模型提供了一条自然途径,但现有的视频强化学习奖励通常将每个视频简化为低级视觉指标,而操作视频评估需要基于逻辑的验证,以确定视频是否满足组合任务规范。为了填补这一空白,我们引入了一种基于组合约束的奖励模型,用于后训练具身视频生成模型,该模型自动将任务需求形式化为线性时序逻辑约束的组合,从而在生成的视频中提供真实的奖励和局部化的错误信息。为了使用这些奖励信号有效地改进高维视频生成,我们进一步提出了CreFlow,这是一种新颖的在线强化学习框架,具有两个关键设计:i) 一种信用感知NFT损失,将强化学习更新限制在与奖励相关的区域,防止后训练期间对不相关区域的扰动;ii) 一种修正性重流损失,它利用组内正样本作为校正方向的显式估计,从而稳定和加速训练。实验表明,CreFlow产生的奖励判断比现有方法更好地与人类和模拟器的成功标签对齐,并且在八个双手操作任务中,下游执行成功率提高了23.8个百分点。
🔬 方法详解
问题定义:论文旨在解决具身操作任务中,视频生成模型生成的视频不符合物理约束和任务逻辑的问题。现有方法通常使用低级视觉指标作为奖励信号,无法准确反映任务的完成情况,并且难以在高维视频空间中进行有效的强化学习。
核心思路:论文的核心思路是利用组合约束奖励模型,将任务需求形式化为线性时序逻辑约束的组合,从而提供更准确和细粒度的奖励信号。同时,通过信用感知NFT损失和修正性重流损失,提高强化学习的效率和稳定性,避免对不相关区域的扰动。
技术框架:CreFlow框架包含以下主要模块:1) 视频生成模型:使用视频扩散模型生成操作视频。2) 组合约束奖励模型:将任务需求转化为线性时序逻辑约束,并计算奖励。3) 信用感知NFT损失:限制强化学习更新到与奖励相关的区域。4) 修正性重流损失:利用组内正样本作为校正方向的估计,稳定和加速训练。整个框架采用在线强化学习的方式进行训练。
关键创新:论文的关键创新在于:1) 提出了组合约束奖励模型,能够更准确地评估视频是否满足任务需求。2) 提出了信用感知NFT损失,避免了对不相关区域的扰动,提高了强化学习的效率。3) 提出了修正性重流损失,利用组内正样本作为校正方向的估计,稳定和加速了训练。
关键设计:信用感知NFT损失通过计算每个像素对奖励的贡献度,并根据贡献度调整损失权重,从而限制更新到与奖励相关的区域。修正性重流损失利用同一任务的成功视频作为正样本,计算生成视频与正样本之间的光流,并利用光流作为校正方向的估计,引导生成视频向更符合任务需求的方向发展。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CreFlow在奖励判断上与人类和模拟器的成功标签对齐程度优于现有方法。在八个双手操作任务中,CreFlow的下游执行成功率比基线方法提高了23.8个百分点,证明了该方法的有效性。
🎯 应用场景
CreFlow具有广泛的应用前景,可用于训练机器人完成各种复杂的具身操作任务,例如装配、抓取、放置等。该方法还可以应用于虚拟现实和游戏等领域,生成更逼真和符合物理规律的交互视频。未来,该研究有望推动机器人和人工智能技术的发展,实现更智能和自主的机器人系统。
📄 摘要(原文)
Video generation models trained on heterogeneous data with likelihood-surrogate objectives can produce visually plausible rollouts that violate physical constraints in embodied manipulation. Although reinforcement-learning post-training offers a natural route to adapting VGMs, existing video-RL rewards often reduce each rollout to a low-level visual metric, whereas manipulation video evaluation requires logic-based verification of whether the rollout satisfies a compositional task specification. To fill this gap, we introduce a compositional constraint-based reward model for post-training embodied video generation models, which automatically formulates task requirements as a composition of Linear Temporal Logic constraints, providing faithful rewards and localized error information in generated videos. To achieve effective improvement in high-dimensional video generation using these reward signals, we further propose CreFlow, a novel online RL framework with two key designs: i) a credit-aware NFT loss that confines the RL update to reward-relevant regions, preventing perturbations to unrelated regions during post-training; and ii) a corrective reflow loss that leverages within-group positive samples as an explicit estimate of the correction direction, stabilizing and accelerating training. Experiments show that CreFlow yields reward judgments better aligned with human and simulator success labels than existing methods and improves downstream execution success by 23.8 percentage points across eight bimanual manipulation tasks.