Decoupling Exploration and Policy Optimization: Uncertainty Guided Tree Search for Hard Exploration
作者: Zakaria Mhammedi, James Cohan
分类: cs.LG
发布日期: 2026-03-23
💡 一句话要点
提出解耦探索与策略优化的不确定性引导树搜索算法,用于解决强化学习中的困难探索问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 探索策略 树搜索 不确定性估计 解耦探索与优化
📋 核心要点
- 传统强化学习方法在探索阶段同时进行策略优化,导致计算开销大,探索效率低,尤其是在奖励稀疏的环境中。
- 论文提出一种新的探索范式,将探索与策略优化解耦,利用不确定性引导的树搜索算法进行高效探索,无需强化学习。
- 实验表明,该方法在困难的Atari游戏和MuJoCo连续控制任务中,显著优于传统内在动机方法,并能学习到高性能策略。
📝 摘要(中文)
发现过程需要主动探索,即收集新的和信息丰富的数据。然而,高效的自主探索仍然是一个尚未解决的主要问题。目前的主流方法是使用强化学习(RL)训练具有内在动机的智能体,最大化外在和内在奖励的组合目标。我们认为这种方法会产生不必要的开销:虽然策略优化对于精确的任务执行是必要的,但仅仅为了扩大状态覆盖范围而使用这种机制可能效率低下。在本文中,我们提出了一种新的范式,它明确地将探索与利用分离,并在探索阶段绕过RL。我们的方法使用一种受Go-With-The-Winner算法启发的树搜索策略,并结合认知不确定性度量来系统地驱动探索。通过消除策略优化的开销,我们的方法在困难的Atari基准测试中比标准的内在动机基线探索效率高出一个数量级。此外,我们证明了可以使用现有的监督反向学习算法将发现的轨迹提炼成可部署的策略,从而在不依赖领域知识的情况下,在Montezuma's Revenge、Pitfall!和Venture上获得最先进的分数。最后,我们通过在稀疏奖励设置中直接从图像观察中解决MuJoCo Adroit灵巧操作和AntMaze任务,展示了我们的框架在高维连续动作空间中的通用性,无需专家演示或离线数据集。据我们所知,以前没有人做到这一点。
🔬 方法详解
问题定义:论文旨在解决强化学习中奖励稀疏环境下的困难探索问题。现有方法通常依赖于内在动机驱动的强化学习,将探索和策略优化耦合在一起,导致在探索阶段也需要进行复杂的策略优化,效率低下,难以有效覆盖状态空间。尤其是在像Montezuma's Revenge这样的游戏中,智能体需要执行一系列精确的动作才能获得奖励,传统的强化学习方法很难找到这些动作序列。
核心思路:论文的核心思路是将探索和策略优化解耦。在探索阶段,不再使用强化学习进行策略优化,而是采用一种基于树搜索的探索策略,利用认知不确定性来引导探索方向,优先探索那些智能体不确定性高的区域。这样可以避免在探索阶段进行不必要的策略优化,从而提高探索效率。探索完成后,再利用监督学习等方法,将探索到的轨迹提炼成可部署的策略。
技术框架:整体框架分为两个阶段:探索阶段和策略学习阶段。在探索阶段,使用不确定性引导的树搜索算法进行探索。该算法维护一个搜索树,每个节点代表一个状态,边代表一个动作。算法根据节点的访问次数和不确定性值来选择下一个要探索的节点。不确定性值越高,说明智能体对该状态的了解越少,越需要探索。在策略学习阶段,使用监督学习算法,例如反向学习,将探索阶段收集到的轨迹数据训练成一个策略网络。
关键创新:论文最重要的创新点在于将探索和策略优化解耦,并提出了一种基于不确定性引导的树搜索算法进行高效探索。与传统的内在动机方法相比,该方法避免了在探索阶段进行策略优化,从而大大提高了探索效率。此外,该方法还能够有效地利用认知不确定性来引导探索方向,优先探索那些智能体不了解的区域。
关键设计:在树搜索算法中,使用Go-With-The-Winner算法来选择下一个要探索的节点。该算法根据节点的访问次数和不确定性值来计算一个得分,选择得分最高的节点进行探索。不确定性值通过一个神经网络来估计,该网络以状态作为输入,输出一个不确定性值。在策略学习阶段,使用反向学习算法,将探索阶段收集到的轨迹数据训练成一个策略网络。损失函数采用交叉熵损失函数。
📊 实验亮点
该方法在Montezuma's Revenge, Pitfall!和Venture等困难的Atari游戏中取得了state-of-the-art的结果,无需任何领域知识。与传统的内在动机方法相比,探索效率提高了一个数量级。此外,该方法还在MuJoCo Adroit灵巧操作和AntMaze任务中取得了成功,无需专家演示或离线数据集,证明了其在高维连续动作空间中的通用性。
🎯 应用场景
该研究成果可应用于机器人自主探索、游戏AI、自动驾驶等领域。在机器人自主探索中,可以帮助机器人在未知环境中高效地探索和学习。在游戏AI中,可以帮助智能体在复杂游戏中找到最优策略。在自动驾驶中,可以帮助自动驾驶系统在复杂交通环境中进行安全可靠的导航。该研究有望推动人工智能在复杂环境下的应用。
📄 摘要(原文)
The process of discovery requires active exploration -- the act of collecting new and informative data. However, efficient autonomous exploration remains a major unsolved problem. The dominant paradigm addresses this challenge by using Reinforcement Learning (RL) to train agents with intrinsic motivation, maximizing a composite objective of extrinsic and intrinsic rewards. We suggest that this approach incurs unnecessary overhead: while policy optimization is necessary for precise task execution, employing such machinery solely to expand state coverage may be inefficient. In this paper, we propose a new paradigm that explicitly separates exploration from exploitation and bypasses RL during the exploration phase. Our method uses a tree-search strategy inspired by the Go-With-The-Winner algorithm, paired with a measure of epistemic uncertainty to systematically drive exploration. By removing the overhead of policy optimization, our approach explores an order of magnitude more efficiently than standard intrinsic motivation baselines on hard Atari benchmarks. Further, we demonstrate that the discovered trajectories can be distilled into deployable policies using existing supervised backward learning algorithms, achieving state-of-the-art scores by a wide margin on Montezuma's Revenge, Pitfall!, and Venture without relying on domain-specific knowledge. Finally, we demonstrate the generality of our framework in high-dimensional continuous action spaces by solving the MuJoCo Adroit dexterous manipulation and AntMaze tasks in a sparse-reward setting, directly from image observations and without expert demonstrations or offline datasets. To the best of our knowledge, this has not been achieved before.