Reinforcement Learning with Inverse Rewards for World Model Post-training

作者: Yang Ye, Tianyu He, Shuo Yang, Jiang Bian

分类: cs.CV

发布日期: 2025-09-28

💡 一句话要点

提出RLIR框架，通过逆向奖励学习提升视频世界模型的动作跟随能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视频世界模型 强化学习 逆向奖励 动作跟随 逆动力学模型

📋 核心要点

现有视频世界模型在动作跟随能力方面存在不足，难以准确模拟人类指定动作。
RLIR框架通过逆动力学模型从生成视频中恢复动作，构建可验证的奖励信号，用于强化学习。
实验表明，RLIR在动作跟随、视觉质量和人类偏好方面均有显著提升，优于现有方法。

📝 摘要（中文）

世界模型能够模拟动态环境，使智能体与各种输入模态进行交互。尽管最近在视频世界模型的视觉质量和时间一致性方面取得了进展，但其精确建模人类指定动作的能力仍有待探索。强化学习为直接提升预训练模型的次优动作跟随能力提供了一种有前景的方法，前提是能够定义合适的奖励函数。然而，由于大规模偏好标注的高昂成本以及构建基于规则的视频验证器的不可行性，将强化学习后训练方法应用于世界模型是不切实际的。为了解决这个问题，我们提出了基于逆向奖励的强化学习（RLIR），这是一种后训练框架，通过使用逆动力学模型从生成的视频中恢复输入动作来获得可验证的奖励信号。通过将高维视频模态映射到低维动作空间，RLIR为通过群体相对策略优化进行优化提供了客观且可验证的奖励。在自回归和扩散范式上的实验表明，动作跟随能力提高了5-10%，视觉质量提高了高达10%，并且人类偏好得分更高，这确立了RLIR作为第一个专门设计用于增强视频世界模型中动作跟随能力的后训练方法。

🔬 方法详解

问题定义：视频世界模型在模拟环境动态时，难以准确地根据给定的动作序列生成对应的视频。现有方法依赖于大规模人工标注或基于规则的视频验证器来构建奖励函数，成本高昂且难以实现。因此，如何有效地提升视频世界模型的动作跟随能力是一个关键问题。

核心思路：RLIR的核心思路是利用逆动力学模型（Inverse Dynamics Model）从生成的视频中推断出原始的动作序列。通过比较推断出的动作和输入的动作，可以得到一个客观的、可验证的奖励信号，从而避免了人工标注和规则定义带来的困难。

技术框架：RLIR框架主要包含以下几个模块：1) 预训练的视频世界模型，负责根据动作生成视频；2) 逆动力学模型，负责从生成的视频中推断动作；3) 奖励函数，基于推断动作和输入动作的差异计算奖励；4) 强化学习算法（Group Relative Policy Optimization），用于优化视频世界模型的策略，使其更好地跟随动作。整个流程是：输入动作序列到世界模型生成视频，视频输入到逆动力学模型得到推断动作，比较推断动作和输入动作得到奖励，利用奖励优化世界模型。

关键创新：RLIR的关键创新在于使用逆动力学模型来构建奖励函数，从而避免了对大规模人工标注或规则定义的需求。这种方法将高维的视频信息压缩到低维的动作空间，使得奖励信号更加清晰和易于优化。此外，RLIR是第一个专门为提升视频世界模型动作跟随能力而设计的后训练方法。

关键设计：逆动力学模型的选择和训练至关重要，需要选择合适的网络结构和损失函数，以保证能够准确地从视频中推断出动作。奖励函数的设计也需要仔细考虑，需要平衡推断动作和输入动作之间的差异，以及其他因素（例如，视频的视觉质量）。Group Relative Policy Optimization算法的选择也需要根据具体情况进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RLIR在自回归和扩散两种视频世界模型上均取得了显著的提升。在动作跟随能力方面，RLIR使模型性能提高了5-10%。在视觉质量方面，RLIR使模型性能提高了高达10%。此外，人类评估结果也表明，RLIR生成的视频在动作跟随方面更符合人类的偏好。这些结果表明，RLIR是一种有效的视频世界模型后训练方法。

🎯 应用场景

RLIR具有广泛的应用前景，例如可以用于训练更逼真的虚拟现实环境，提升游戏AI的智能水平，以及开发更智能的机器人控制系统。通过提高视频世界模型的动作跟随能力，可以使这些应用更加真实、可控和高效。此外，该方法还可以应用于其他需要精确动作控制的领域，例如自动驾驶和医疗手术。

📄 摘要（原文）

World models simulate dynamic environments, enabling agents to interact with diverse input modalities. Although recent advances have improved the visual quality and temporal consistency of video world models, their ability of accurately modeling human-specified actions remains under-explored. Reinforcement learning presents a promising approach for directly improving the suboptimal action-following capability of pre-trained models, assuming that an appropriate reward function can be defined. However, transferring reinforcement learning post-training methods to world model is impractical due to the prohibitive cost of large-scale preference annotations and the infeasibility of constructing rule-based video verifiers. To address this gap, we propose Reinforcement Learning with Inverse Rewards (RLIR), a post-training framework that derives verifiable reward signals by recovering input actions from generated videos using an Inverse Dynamics Model. By mapping high-dimensional video modality to a low-dimensional action space, RLIR provides an objective and verifiable reward for optimization via Group Relative Policy Optimization. Experiments across autoregressive and diffusion paradigms demonstrate 5-10% gains in action-following, up to 10% improvements in visual quality, and higher human preference scores, establishing RLIR as the first post-training method specifically designed to enhance action-following in video world models.

Reinforcement Learning with Inverse Rewards for World Model Post-training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理