Efficient On-policy Visual-RL via Stochastic Decoupled Policy Gradient

作者: Haoxiang You, Yilang Liu, Davis Zong, Qian Wang, Teeratham Vitchutripop, Qi Wang, Daniel Rakita, Ian Abraham

分类: cs.RO, cs.AI, cs.CV, cs.LG, eess.SY

发布日期: 2026-05-26

💡 一句话要点

提出随机解耦策略梯度(SDPG)，高效解决视觉强化学习中的样本效率问题。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉强化学习 策略梯度 随机扰动 样本效率 机器人控制

📋 核心要点

现有视觉强化学习方法需要大量的环境交互样本，计算和内存开销巨大，限制了其在实际机器人任务中的应用。
SDPG通过随机扰动轨迹rollout来估计策略梯度，减少了对大量环境样本的依赖，降低了计算和内存需求。
实验表明，SDPG在视觉MuJoCo基准测试中，训练时间更短、内存占用更少，且能获得更高的奖励，并成功迁移到真实机器人。

📝 摘要（中文）

本文提出了一种轻量级的视觉强化学习方法，即随机解耦策略梯度(SDPG)。该方法能够在单个NVIDIA RTX 4080 GPU上，仅用几个小时端到端地训练出多样化的视觉运动控制策略。SDPG通过轨迹rollout的随机扰动来估计策略梯度，从而大幅减少了批量渲染环境的需求，并显著降低了计算和内存开销。在视觉MuJoCo基准测试中，SDPG在训练时间、内存使用和奖励方面均优于基线方法。最后，为了支持未来的研究，我们引入了一套逼真的视觉机器人基准，涵盖了灵巧操作、具有挑战性的运动，并展示了在物理硬件上的有效sim-to-real迁移。

🔬 方法详解

问题定义：视觉强化学习旨在通过视觉输入学习控制策略，但现有方法通常需要大量的环境交互样本，导致计算成本高昂，内存需求大，难以在资源受限的平台上部署，也限制了其在真实机器人场景中的应用。现有方法的痛点在于样本效率低，难以在有限的计算资源下训练出有效的策略。

核心思路：SDPG的核心思路是通过随机扰动轨迹rollout来估计策略梯度。不同于传统的策略梯度方法，SDPG不需要精确的梯度计算，而是通过对策略进行随机扰动，并观察扰动后的性能变化来近似梯度。这种方法降低了对大量环境样本的依赖，从而提高了样本效率。

技术框架：SDPG的整体框架包括以下几个主要步骤：1) 使用当前策略在环境中进行rollout，生成轨迹数据；2) 对策略参数进行随机扰动，生成多个扰动后的策略；3) 使用扰动后的策略在环境中进行rollout，获得相应的奖励；4) 根据扰动和奖励的变化，估计策略梯度；5) 使用估计的策略梯度更新策略参数。该流程循环迭代，直至策略收敛。

关键创新：SDPG最重要的技术创新点在于使用随机扰动来估计策略梯度。与传统的策略梯度方法相比，SDPG不需要精确的梯度计算，而是通过对策略进行随机扰动，并观察扰动后的性能变化来近似梯度。这种方法降低了对大量环境样本的依赖，从而提高了样本效率，并降低了计算和内存开销。

关键设计：SDPG的关键设计包括：1) 扰动策略的选择，例如可以使用高斯噪声或均匀噪声；2) 扰动幅度的控制，需要根据具体任务进行调整；3) 策略梯度的估计方法，可以使用有限差分法或REINFORCE算法的变体；4) 策略更新的优化器，例如可以使用Adam或SGD。损失函数通常是期望累积奖励的负值，目标是最大化期望累积奖励。

🖼️ 关键图片

📊 实验亮点

SDPG在视觉MuJoCo基准测试中表现出色，在训练时间、内存使用和奖励方面均优于基线方法。具体而言，SDPG能够在单个NVIDIA RTX 4080 GPU上，仅用几个小时端到端地训练出多样化的视觉运动控制策略。此外，SDPG还成功地将训练好的策略迁移到真实机器人上，验证了其在实际场景中的有效性。具体性能提升数据未知。

🎯 应用场景

SDPG具有广泛的应用前景，尤其是在资源受限的机器人平台上。它可以应用于各种视觉伺服任务，例如机器人抓取、操作、导航等。此外，SDPG还可以用于训练无人机、自动驾驶汽车等智能体的控制策略。该研究的实际价值在于降低了视觉强化学习的计算成本，使其更容易在实际场景中部署。未来，SDPG可以进一步扩展到多智能体强化学习、元学习等领域。

📄 摘要（原文）

We present the stochastic decoupled policy gradient (SDPG), a lightweight visual reinforcement learning (RL) method that trains diverse visuomotor control policies end-to-end within a few hours on a single NVIDIA RTX 4080 GPU. SDPG estimates policy gradients via random perturbations of trajectory rollouts, requiring orders of magnitude fewer batch-rendered environments and substantially reducing compute and memory overhead. On visual MuJoCo benchmarks, SDPG consistently outperforms baseline methods in training time, memory usage, and rewards. Finally, to support future research, we introduce a suite of realistic visual robotics benchmarks spanning dexterous manipulation, challenging locomotion, and demonstrate effective sim-to-real transfer on physical hardware.

Efficient On-policy Visual-RL via Stochastic Decoupled Policy Gradient

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理