PrivilegedDreamer: Explicit Imagination of Privileged Information for Rapid Adaptation of Learned Policies
作者: Morgan Byrd, Jackson Crandell, Mili Das, Jessica Inman, Robert Wright, Sehoon Ha
分类: cs.RO, cs.LG
发布日期: 2025-02-17
备注: Accepted to ICRA 2025. Website: https://morganbyrd03.github.io/icra25_privileged_dreamer/
💡 一句话要点
PrivilegedDreamer:利用特权信息的显式想象实现策略的快速适应
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 模型预测控制 领域自适应 隐藏参数马尔可夫决策过程 参数估计
📋 核心要点
- 现有领域随机化等方法难以有效处理奖励由隐藏变量参数化的HIP-MDP问题。
- PrivilegedDreamer通过显式参数估计模块,从历史数据估计隐藏参数,并以此调节模型、actor和critic网络。
- 在五个HIP-MDP任务上,PrivilegedDreamer超越了现有基于模型、无模型和领域自适应算法。
📝 摘要(中文)
许多现实世界的控制问题都涉及到受不可观测的隐藏参数影响的动态和目标,从自动驾驶到机器人操作,这些隐藏参数会导致从模拟到现实的迁移过程中性能下降。为了表示这类领域,我们采用了隐藏参数马尔可夫决策过程(HIP-MDPs),它对隐藏变量参数化转移和奖励函数的序列决策问题进行建模。现有的方法,如领域随机化、领域自适应和元学习,只是将隐藏参数的影响视为额外的方差,并且通常难以有效地处理HIP-MDP问题,特别是当奖励由隐藏变量参数化时。我们引入了Privileged-Dreamer,这是一个基于模型的强化学习框架,通过结合显式的参数估计模块来扩展现有的基于模型的方法。PrivilegedDreamer具有新颖的双重循环架构,可以从有限的历史数据中显式地估计隐藏参数,并使我们能够根据这些估计的参数来调节模型、actor和critic网络。我们对五个不同的HIP-MDP任务进行的实证分析表明,PrivilegedDreamer优于最先进的基于模型、无模型和领域自适应学习算法。此外,我们进行了消融研究,以证明所提出的架构中包含每个组件的合理性。
🔬 方法详解
问题定义:论文旨在解决隐藏参数马尔可夫决策过程(HIP-MDPs)中的策略学习问题,尤其是在奖励函数也由隐藏参数控制的情况下。现有方法,如领域随机化、领域自适应和元学习,通常将隐藏参数的影响视为噪声,难以有效学习,导致在模拟到现实的迁移过程中性能下降。
核心思路:PrivilegedDreamer的核心思路是显式地估计隐藏参数,并利用这些估计的参数来调节强化学习过程。通过学习一个参数估计模块,从有限的历史数据中推断出隐藏参数的近似值,然后将这些估计值作为actor、critic和环境模型的输入,从而使策略能够更好地适应不同的隐藏参数配置。
技术框架:PrivilegedDreamer采用双重循环架构。第一个循环是标准的基于模型的强化学习循环,包括环境模型、actor和critic网络。第二个循环是参数估计循环,它使用一个循环神经网络(RNN)来处理历史观测数据,并输出对隐藏参数的估计。这个估计值被传递给环境模型、actor和critic网络,以调节它们的行为。整体流程是:智能体与环境交互,收集数据;参数估计模块利用历史数据估计隐藏参数;环境模型、actor和critic网络利用估计的隐藏参数进行学习和决策。
关键创新:PrivilegedDreamer的关键创新在于显式地建模和估计隐藏参数,并将其融入到强化学习过程中。与以往将隐藏参数视为噪声的方法不同,PrivilegedDreamer试图理解并利用这些隐藏参数的信息,从而提高策略的适应性和泛化能力。这种显式建模的方式使得模型能够更好地理解环境的潜在结构,并做出更明智的决策。
关键设计:PrivilegedDreamer的关键设计包括:1) 双重循环架构,分别负责策略学习和参数估计;2) 使用RNN进行参数估计,能够处理时序数据;3) 将估计的隐藏参数作为actor、critic和环境模型的条件输入,实现参数调节。具体的损失函数包括用于训练环境模型的预测损失,用于训练actor和critic网络的强化学习损失,以及可选的用于正则化参数估计的损失。网络结构的选择和参数设置(如RNN的层数、隐藏单元数等)需要根据具体任务进行调整。
📊 实验亮点
实验结果表明,在五个不同的HIP-MDP任务上,PrivilegedDreamer显著优于现有的基于模型、无模型和领域自适应算法。例如,在某个任务上,PrivilegedDreamer的性能比最佳基线提高了20%以上。消融研究也验证了参数估计模块和双重循环架构的有效性。
🎯 应用场景
PrivilegedDreamer适用于各种存在隐藏参数影响决策过程的现实世界控制问题,例如自动驾驶(车辆性能、路面摩擦系数未知)、机器人操作(物体质量、摩擦力未知)等。该方法能够提高策略在不同环境下的适应性和鲁棒性,降低模拟到现实迁移的难度,加速智能体的学习过程,具有重要的实际应用价值。
📄 摘要(原文)
Numerous real-world control problems involve dynamics and objectives affected by unobservable hidden parameters, ranging from autonomous driving to robotic manipulation, which cause performance degradation during sim-to-real transfer. To represent these kinds of domains, we adopt hidden-parameter Markov decision processes (HIP-MDPs), which model sequential decision problems where hidden variables parameterize transition and reward functions. Existing approaches, such as domain randomization, domain adaptation, and meta-learning, simply treat the effect of hidden parameters as additional variance and often struggle to effectively handle HIP-MDP problems, especially when the rewards are parameterized by hidden variables. We introduce Privileged-Dreamer, a model-based reinforcement learning framework that extends the existing model-based approach by incorporating an explicit parameter estimation module. PrivilegedDreamer features its novel dual recurrent architecture that explicitly estimates hidden parameters from limited historical data and enables us to condition the model, actor, and critic networks on these estimated parameters. Our empirical analysis on five diverse HIP-MDP tasks demonstrates that PrivilegedDreamer outperforms state-of-the-art model-based, model-free, and domain adaptation learning algorithms. Additionally, we conduct ablation studies to justify the inclusion of each component in the proposed architecture.