Transfer Reinforcement Learning in Heterogeneous Action Spaces using Subgoal Mapping
作者: Kavinayan P. Sivakumar, Yan Zhang, Zachary Bell, Scott Nivison, Michael M. Zavlanos
分类: cs.LG, cs.AI
发布日期: 2024-10-18
💡 一句话要点
提出基于子目标映射的迁移强化学习方法,解决异构动作空间下的策略迁移问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 迁移强化学习 异构动作空间 子目标映射 LSTM网络 策略学习
📋 核心要点
- 现有跨异构动作空间的迁移学习方法依赖人工映射或策略共享,前者引入人为偏差,后者泛化能力弱。
- 论文提出学习专家策略与学习者策略间的子目标映射,利用LSTM网络预测学习者的子目标序列,引导策略学习。
- 实验结果表明,该方法能有效学习子目标映射,并显著提升学习者在新任务中的样本效率和训练速度。
📝 摘要(中文)
本文研究了具有不同动作空间的智能体之间的迁移强化学习问题。目标是利用专家智能体在新任务上的成功演示,帮助学习者智能体在其自身的动作空间中学习最优策略,并减少所需的样本数量。现有方法要么需要人工设计的动作空间映射,引入偏差,要么要求专家智能体与学习者智能体共享策略参数,泛化性差。本文提出了一种学习专家智能体策略和学习者智能体策略之间的子目标映射的方法。由于动作空间不同,最优策略可能具有不同的子目标轨迹。通过训练长短期记忆(LSTM)网络来学习任务分布的子目标映射,并使用该映射预测学习者智能体的子目标序列,从而加速学习。数值实验表明,该方法能够有效地找到给定任务分布下的子目标映射。此外,通过学习到的子目标映射模仿专家智能体的策略,可以显著提高学习者智能体在新任务中的样本效率和训练速度。
🔬 方法详解
问题定义:论文旨在解决异构动作空间下的迁移强化学习问题。具体而言,学习者智能体和专家智能体拥有不同的动作空间,直接进行策略迁移效果不佳。现有方法或者依赖人工设计的动作空间映射,这引入了人为偏差;或者要求专家智能体与学习者智能体共享策略参数,但这难以泛化到未见过的任务上。因此,需要一种能够自动学习动作空间差异并进行有效迁移的方法。
核心思路:论文的核心思路是学习专家智能体和学习者智能体之间的子目标映射。即使两个智能体的动作空间不同,它们完成同一任务的策略也可能存在相似的子目标序列。通过学习这种子目标映射关系,可以将专家智能体的经验迁移到学习者智能体上,从而加速学习过程。这种方法避免了人工设计映射的偏差,并且能够更好地适应未见过的任务。
技术框架:整体框架包含以下几个主要阶段:1) 专家智能体在新任务上进行演示,生成专家策略。2) 使用LSTM网络学习专家策略和学习者策略之间的子目标映射。LSTM网络以专家智能体的状态序列作为输入,预测学习者智能体的子目标序列。3) 在新的未见过的任务中,利用学习到的子目标映射,预测学习者智能体的子目标序列。4) 使用预测的子目标序列引导学习者智能体的策略学习,例如通过奖励塑造或行为克隆等方式。
关键创新:最重要的技术创新点在于提出了基于子目标映射的迁移学习方法,能够自动学习异构动作空间下的策略差异,并进行有效的知识迁移。与现有方法相比,该方法不需要人工设计映射,并且能够更好地泛化到未见过的任务上。此外,使用LSTM网络学习子目标映射,能够有效地处理序列数据,捕捉策略之间的时序关系。
关键设计:LSTM网络的输入是专家智能体的状态序列,输出是学习者智能体的子目标序列。损失函数可以使用交叉熵损失或均方误差损失,具体取决于子目标的表示方式。在训练LSTM网络时,需要使用大量的任务数据,以保证学习到的子目标映射具有良好的泛化能力。在利用子目标映射引导学习者智能体策略学习时,可以使用奖励塑造或行为克隆等方法。奖励塑造可以通过给予学习者智能体接近预测子目标的奖励来加速学习。行为克隆可以通过模仿专家智能体的行为来初始化学习者智能体的策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的子目标映射方法能够有效地学习异构动作空间下的策略差异,并显著提高学习者智能体在新任务中的样本效率和训练速度。具体而言,与直接学习相比,使用子目标映射引导的学习者智能体能够更快地收敛到最优策略,并且所需的样本数量减少了显著比例。这些结果验证了该方法的有效性和优越性。
🎯 应用场景
该研究具有广泛的应用前景,例如在机器人领域,可以将人类专家的操作经验迁移到不同结构的机器人上,从而加速机器人的学习过程。此外,该方法还可以应用于游戏AI、自动驾驶等领域,提高智能体的学习效率和泛化能力。未来,该方法有望应用于更复杂的异构智能体系统,实现更高效的知识共享和协同工作。
📄 摘要(原文)
In this paper, we consider a transfer reinforcement learning problem involving agents with different action spaces. Specifically, for any new unseen task, the goal is to use a successful demonstration of this task by an expert agent in its action space to enable a learner agent learn an optimal policy in its own different action space with fewer samples than those required if the learner was learning on its own. Existing transfer learning methods across different action spaces either require handcrafted mappings between those action spaces provided by human experts, which can induce bias in the learning procedure, or require the expert agent to share its policy parameters with the learner agent, which does not generalize well to unseen tasks. In this work, we propose a method that learns a subgoal mapping between the expert agent policy and the learner agent policy. Since the expert agent and the learner agent have different action spaces, their optimal policies can have different subgoal trajectories. We learn this subgoal mapping by training a Long Short Term Memory (LSTM) network for a distribution of tasks and then use this mapping to predict the learner subgoal sequence for unseen tasks, thereby improving the speed of learning by biasing the agent's policy towards the predicted learner subgoal sequence. Through numerical experiments, we demonstrate that the proposed learning scheme can effectively find the subgoal mapping underlying the given distribution of tasks. Moreover, letting the learner agent imitate the expert agent's policy with the learnt subgoal mapping can significantly improve the sample efficiency and training time of the learner agent in unseen new tasks.