Diffusion Reward: Learning Rewards via Conditional Video Diffusion

作者: Tao Huang, Guangqi Jiang, Yanjie Ze, Huazhe Xu

分类: cs.LG, cs.CV, cs.RO

发布日期: 2023-12-21 (更新: 2024-08-09)

备注: Accepted to ECCV 2024. Project page and code: https://diffusion-reward.github.io/

💡 一句话要点

提出Diffusion Reward，通过条件视频扩散模型学习奖励函数，解决复杂视觉强化学习问题。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 奖励函数学习 视频扩散模型 强化学习 机器人操作 条件熵

📋 核心要点

现有强化学习方法在复杂视觉任务中，奖励函数的设计和获取成本高昂，限制了其应用。
Diffusion Reward利用条件视频扩散模型，通过专家轨迹降低生成多样性来学习奖励函数，鼓励探索专家行为。
实验表明，该方法在机器人操作任务中表现出色，不仅在模拟和真实环境中有效，还能泛化到未见过的任务。

📝 摘要（中文）

本文提出了一种名为Diffusion Reward的新框架，该框架通过条件视频扩散模型从专家视频中学习奖励函数，从而解决复杂的视觉强化学习（RL）问题。核心思想是，当扩散模型以专家轨迹为条件时，会表现出较低的生成多样性。Diffusion Reward因此被形式化为条件熵的负数，鼓励对专家行为进行有效的探索。在模拟平台和真实世界的机器人操作任务中，我们展示了该方法在视觉输入下的有效性。此外，Diffusion Reward甚至可以成功有效地解决未见过的任务，大大超过了基线方法。项目主页和代码：https://diffusion-reward.github.io。

🔬 方法详解

问题定义：论文旨在解决视觉强化学习中奖励函数难以设计的问题。现有方法通常需要手动设计奖励函数，或者依赖逆强化学习（IRL），但IRL方法在复杂视觉场景下效果不佳，且计算成本高昂。因此，如何从专家视频中高效学习奖励函数，成为一个重要的挑战。

核心思路：论文的核心思路是利用条件视频扩散模型来学习奖励函数。作者观察到，当以专家轨迹为条件时，视频扩散模型的生成多样性会降低。因此，可以通过衡量生成多样性的程度来判断当前状态与专家行为的相似度，从而设计奖励函数。具体来说，使用条件熵的负数作为奖励，鼓励智能体探索与专家行为相似的状态。

技术框架：Diffusion Reward的整体框架包括以下几个主要模块：1) 专家视频数据集；2) 条件视频扩散模型，用于学习专家行为的分布；3) 奖励函数，基于条件熵的负数计算；4) 强化学习算法，用于训练智能体。训练过程首先利用专家视频训练条件视频扩散模型，然后使用学习到的奖励函数训练强化学习智能体。

关键创新：该论文的关键创新在于将条件视频扩散模型应用于奖励函数学习。与传统的IRL方法相比，Diffusion Reward不需要显式地推断奖励函数，而是通过衡量生成多样性来隐式地学习奖励。这种方法更加高效，并且能够处理复杂的视觉场景。此外，利用条件熵的负数作为奖励函数，能够有效地引导智能体探索专家行为。

关键设计：在技术细节方面，论文使用了U-Net结构的视频扩散模型，并以专家轨迹作为条件输入。条件熵的计算通过采样多个视频帧，并计算这些帧的概率密度来实现。强化学习算法使用了PPO（Proximal Policy Optimization）。论文还设计了一种自适应的奖励缩放机制，以提高训练的稳定性。

📊 实验亮点

实验结果表明，Diffusion Reward在多个机器人操作任务中优于基线方法，包括模仿学习和逆强化学习方法。在真实机器人实验中，Diffusion Reward也取得了显著的成功。更重要的是，Diffusion Reward展现出了良好的泛化能力，能够成功解决未见过的任务，这表明该方法学习到的奖励函数具有一定的通用性。

🎯 应用场景

Diffusion Reward具有广泛的应用前景，可以应用于机器人操作、自动驾驶、游戏AI等领域。通过从人类或专家的演示视频中学习奖励函数，可以降低强化学习的开发成本，并使智能体能够学习到更加复杂的行为。该方法尤其适用于难以手动设计奖励函数的复杂视觉任务。

📄 摘要（原文）

Learning rewards from expert videos offers an affordable and effective solution to specify the intended behaviors for reinforcement learning (RL) tasks. In this work, we propose Diffusion Reward, a novel framework that learns rewards from expert videos via conditional video diffusion models for solving complex visual RL problems. Our key insight is that lower generative diversity is exhibited when conditioning diffusion on expert trajectories. Diffusion Reward is accordingly formalized by the negative of conditional entropy that encourages productive exploration of expert behaviors. We show the efficacy of our method over robotic manipulation tasks in both simulation platforms and the real world with visual input. Moreover, Diffusion Reward can even solve unseen tasks successfully and effectively, largely surpassing baseline methods. Project page and code: https://diffusion-reward.github.io.

Diffusion Reward: Learning Rewards via Conditional Video Diffusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册